Отправка работы Spark в Amazon EMR

MaatDeamon спросил: 07 октября 2018 в 01:50 в: apache-spark

Я собираюсь попробовать EMR и впредь изучать документацию прямо сейчас. Я немного сбит с толку процессом отправки.

1) Где находятся искровые библиотеки

Из документации Spark мы находим:

- spark.yarn.jars: Список библиотек, содержащих код Spark для распространения в контейнеры YARN. По умолчанию Spark на YARN будет использовать локальные jar-файлы Spark, но jar-файлы Spark также могут находиться в общедоступном месте на HDFS. Это позволяет YARN кэшировать его на узлах, чтобы его не нужно было распределять при каждом запуске приложения. Например, чтобы указать jar-файлы в HDFS, установите для этой конфигурации значение hdfs:/// some / path. Разрешены глобусы.

  • (а) Интересно, как это устанавливается с помощью EMR, то есть настраивается ли оно с помощью EMR, или я должен настроить это сам?

2) Как работает параметр --master?

Из документации по spark мы имеем:

- --master: в отличие от других диспетчеров кластеров, поддерживаемых Spark, в которых адрес мастера указывается в параметре --master, в режиме YARN адрес ResourceManager выбирается из конфигурации Hadoop. Таким образом, параметр --master - это пряжа.

  • (a) Это установлено EMR напрямую?

3) Есть ли способ подать заявку через терминал, или это единственный способ фактически развернуть jar на S3? Могу ли я войти в систему к мастеру и выполнить оттуда отправку? Будут ли готовы все переменные Env, необходимые для отправки сценария (см. Предыдущий вопрос)? Какой самый эффективный способ сделать это?


0 ответов