Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о данных. Я использую инструменты для вычислений, редко мне нужно их настраивать.
Я создал 3 ВМ (1 мастер, 2 подчиненных) и успешно установил Spark. Кажется, все работает как надо. Моя проблема заключается в создании сервера Jupyter, к которому можно подключиться из браузера, не работающего на компьютере в кластере.
Я успешно установил ноутбук Jupyter ... и он работает. Я добавил новый профиль IPython для подключения к удаленному серверу с помощью Spark.
теперь проблема
Команда
$ ipython --profile=pyspark
работает нормально, и он подключается к искровому кластеру. Однако,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
по умолчанию это default
профиль, а не pyspark
профиль.
Конфигурация моего ноутбука для pyspark
:
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
? Возможно, проблема была только в порядке аргументов.Ответы:
IPython теперь перешел на версию 4.0 , что означает, что если вы используете его, он будет считывать его конфигурацию
~/.jupyter
, а не~/.ipython
. Вы должны создать новый файл конфигурации са затем отредактируйте полученный
~/.jupyter/jupyter_notebook_config.py
файл в соответствии с вашими потребностями.Больше инструкций по установке здесь .
источник
Предположим, что ваш файл конфигурации ~ / .ipython / profile_pyspark / ipython_notebook_config.py, вы все равно можете использовать этот файл конфигурации:
или же
источник
Проблема в том, что pyspark по умолчанию не находится на пути OS sys. После нескольких неудачных попыток добавить его вручную в мои файлы конфигурации / пути / и т. Д. Я наткнулся на этот репозиторий GitHub под названием findspark.
https://github.com/minrk/findspark
Я клонирую этот репозиторий с помощью Git клон https://github.com/minrk/findspark.git
Затем я запустил «pip install findspark» из корня findspark.
Запустил блокнот Jupyter, создал новый блокнот Python3 и добавил
импорт findspark
импорт os
findspark.init ()
импорт pyspark
sc = pyspark.SparkContext ()
Перед findspark.init () импорт pyspark вернулся с ошибкой.
Чтобы проверить, я просто набрал sc и вернулся:
pyspark.context.SparkContext at 0x4526d30
Все работает на меня сейчас.
источник