Генерация новой переменной RDD из двух крупномасштабных RDD

sclee1 спросил: 26 ноября 2017 в 05:23 в: apache-spark

У меня есть два RDD большого размера, как показано ниже.

#First RDD
key1   value1 labelA
key2   value2 lableB
.....#Second RDD
stepA key1 value1
stepB key2 value2
...

И что я хочу извлечь, это как показано ниже.

labelA stepA key1 value1 
labelB stepB key2 value2

Однако моя проблема в том, что размер двух СДР очень велик. Таким образом, присоединение может занять много времени. Я хочу избежать метода соединения и хочу уменьшить размер перемешивания, насколько это возможно. Кроме того, сбор одного RDD и его трансляция не работали из-за его размера. Обратите внимание, что размер СДР составляет более 10 гигабайт, что означает, что драйвер не может сохранить их сразу.

Следовательно, есть ли способ добиться создания нового СДР из двух СДР большого размера? Как я уже упоминал выше, я хочу избежать метода соединения.

Спасибо.


0 ответов