Проблема с IPython / Jupyter на Spark (Нераспознанный псевдоним)

11

Я работаю над настройкой набора виртуальных машин для экспериментов со Spark, прежде чем потратить деньги и потратить деньги на создание кластера с некоторым оборудованием. Краткое примечание: я академик с опытом работы в области прикладного машинного обучения и немного бросил работу в науке о данных. Я использую инструменты для вычислений, редко мне нужно их настраивать.

Я создал 3 ВМ (1 мастер, 2 подчиненных) и успешно установил Spark. Кажется, все работает как надо. Моя проблема заключается в создании сервера Jupyter, к которому можно подключиться из браузера, не работающего на компьютере в кластере.

Я успешно установил ноутбук Jupyter ... и он работает. Я добавил новый профиль IPython для подключения к удаленному серверу с помощью Spark.

теперь проблема

Команда

$ ipython --profile=pyspark работает нормально, и он подключается к искровому кластеру. Однако,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. по умолчанию это defaultпрофиль, а не pysparkпрофиль.

Конфигурация моего ноутбука для pyspark:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

НОД
источник
Может ли быть так, что следующее будет работать? $ ipython --profile=pyspark notebook? Возможно, проблема была только в порядке аргументов.
Габор Бакос

Ответы:

12

IPython теперь перешел на версию 4.0 , что означает, что если вы используете его, он будет считывать его конфигурацию ~/.jupyter, а не ~/.ipython. Вы должны создать новый файл конфигурации с

jupyter notebook --generate-config

а затем отредактируйте полученный ~/.jupyter/jupyter_notebook_config.pyфайл в соответствии с вашими потребностями.

Больше инструкций по установке здесь .

dmvianna
источник
Я часто задавался вопросом, почему они сохранили команду ipython notebook для отделения jupyter от ipython. Именно поэтому это становится действительно запутанным. Спасибо вам и Кау Зш за указание на несоответствие профиля. Похоже, они должны использовать профиль ipython при использовании команды ipython notebook и профиль jupyter-notebook при использовании этой команды.
AN6U5
4

Предположим, что ваш файл конфигурации ~ / .ipython / profile_pyspark / ipython_notebook_config.py, вы все равно можете использовать этот файл конфигурации:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

или же

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'
кау зш
источник
1

Проблема в том, что pyspark по умолчанию не находится на пути OS sys. После нескольких неудачных попыток добавить его вручную в мои файлы конфигурации / пути / и т. Д. Я наткнулся на этот репозиторий GitHub под названием findspark.

https://github.com/minrk/findspark

Я клонирую этот репозиторий с помощью Git клон https://github.com/minrk/findspark.git

Затем я запустил «pip install findspark» из корня findspark.

Запустил блокнот Jupyter, создал новый блокнот Python3 и добавил

импорт findspark
импорт os
findspark.init ()
импорт pyspark
sc = pyspark.SparkContext ()

Перед findspark.init () импорт pyspark вернулся с ошибкой.

Чтобы проверить, я просто набрал sc и вернулся:
pyspark.context.SparkContext at 0x4526d30

Все работает на меня сейчас.

Anahita
источник
Добро пожаловать на сайт Анахита :)
Dawny33