У меня есть два RDD большого размера, как показано ниже.
#First RDD
key1 value1 labelA
key2 value2 lableB
.....#Second RDD
stepA key1 value1
stepB key2 value2
...
И что я хочу извлечь, это как показано ниже.
labelA stepA key1 value1
labelB stepB key2 value2
Однако моя проблема в том, что размер двух СДР очень велик. Таким образом, присоединение может занять много времени. Я хочу избежать метода соединения и хочу уменьшить размер перемешивания, насколько это возможно. Кроме того, сбор одного RDD и его трансляция не работали из-за его размера. Обратите внимание, что размер СДР составляет более 10 гигабайт, что означает, что драйвер не может сохранить их сразу.
Следовательно, есть ли способ добиться создания нового СДР из двух СДР большого размера? Как я уже упоминал выше, я хочу избежать метода соединения.
Спасибо.