Обработка RDD в файле scala

Ram спросил: 12 мая 2018 в 04:22 в: scala

Я загрузил 2 файла csv, преобразовал RDD в DF, и я написал несколько условий JOIN для выполнения на них. Я использовал для этого искровую оболочку. Теперь я хочу поместить / объединить все эти команды в файл .scala и выполнить задание "Исправить-отправить". В настоящее время я не использую никакой IDE для этого и не хочу запускать с терминала. Должен ли я иметь основной метод для этого? Если да, любезно предложите, как я могу продолжить это?

Большое спасибо за ваше время и ввод.


1 ответ

Manoj Kumar Dhakd ответил: 12 мая 2018 в 05:28

Вам не нужен основной метод запуска скрипта Scala в искровой оболочке.

1. Запишите все шаги в файле и сохраните как файл.scala

2. Запустите искровую оболочку, такую ​​как искровая оболочка -i C: \ spark \ file.scala

Ниже приведен пример кода, который я написал в файле.scala

val rdd=sc.textFile("C:\\Users\\manoj kumar dhakad\\Desktop\\scores.txt")
rdd.collect.foreach(println)

Ниже приведен способ отправки.

spark-shell -i C:\spark\file.scala

Пример вывода

rdd: org.apache.spark.rdd.RDD[String] = C:\Users\manoj kumar dhakad\Desktop\scores.txt MapPartitionsRDD[1] at textFile at <console>:24
75,89,150,135,200,76,12,100,150,28,178,189,167,200,175,150,87,99,129,149,176,200,87,35,157,189
Ram ответил: 13 мая 2018 в 07:07
Можем ли мы использовать параметр spark-submit? Это будет работать?
Manoj Kumar Dhakd ответил: 13 мая 2018 в 04:08
Я пробовал с классом, но я не смог дать класс. Думаю, вы можете дать банку.