Как кэшировать потоковый набор данных < Row >

Mahadevappa M Utagi спросил: 03 ноября 2018 в 09:04 в: apache-spark

У меня есть потоковая передача Dataset<Row>, которая передает каталог csv-файлов. У меня есть следующие вопросы:

  1. Как кэшировать набор потоковых данных.
  2. Как отправить мое потоковое задание в YARN, поэтому мое потоковое задание должно работать вечно до тех пор, пока пользователь не прервет его вручную.

0 ответов