Я обнаружил, что самое простое решение в Windows - это сборка из исходников.
Вы можете в значительной степени следовать этому руководству: http://spark.apache.org/docs/latest/building-spark.html
Загрузите и установите Maven и установите MAVEN_OPTS
значение, указанное в руководстве.
Но если вы просто играете со Spark и на самом деле вам не нужно, чтобы он запускался в Windows по какой-либо другой причине, поскольку ваша собственная машина работает под управлением Windows, я настоятельно рекомендую вам установить Spark на виртуальной машине Linux. Самый простой способ начать, вероятно, - загрузить готовые образы, созданные Cloudera или Hortonworks, и либо использовать связанную версию Spark, либо установить свои собственные из исходных кодов или скомпилированные двоичные файлы, которые вы можете получить с веб-сайта Spark.
Шаги по установке Spark в локальном режиме:
Установите Java 7 или новее . Чтобы проверить, что установка Java завершена, откройте командную строку
java
и нажмите Enter. Если вы получили сообщение,'Java' is not recognized as an internal or external command.
вам необходимо настроить переменные средыJAVA_HOME
иPATH
указать путь к jdk.Скачайте и установите Scala .
Задайте
SCALA_HOME
вControl Panel\System and Security\System
goto «Дополнительные настройки системы» и добавьте%SCALA_HOME%\bin
переменную PATH в переменные среды.Установите Python 2.6 или новее по ссылке для загрузки Python .
Скачать SBT . Установите его и задайте
SBT_HOME
как переменную среды со значением<<SBT PATH>>
.Загрузите
winutils.exe
из репозитория HortonWorks или репозитория git . Поскольку у нас нет локальной установки Hadoop в Windows, мы должны загрузитьwinutils.exe
и поместить ее вbin
каталог в созданномHadoop
домашнем каталоге. УстанавливаетсяHADOOP_HOME = <<Hadoop home directory>>
в переменной окружения.Мы будем использовать предварительно созданный пакет Spark, поэтому выберите предварительно собранный пакет Spark для загрузки Hadoop Spark . Скачайте и распакуйте.
Установите
SPARK_HOME
и добавьте%SPARK_HOME%\bin
переменную PATH в переменные среды.Команда выполнения:
spark-shell
Откройте
http://localhost:4040/
в браузере, чтобы увидеть веб-интерфейс SparkContext.источник
Вы можете скачать искру отсюда:
http://spark.apache.org/downloads.html
Я рекомендую вам эту версию: Hadoop 2 (HDP2, CDH5)
Начиная с версии 1.0.0 есть сценарии .cmd для запуска Spark в Windows.
Распакуйте его с помощью 7zip или аналогичного.
Для начала вы можете выполнить /bin/spark-shell.cmd --master local [2]
Чтобы настроить свой экземпляр, вы можете перейти по этой ссылке: http://spark.apache.org/docs/latest/
источник
Вы можете использовать следующие способы настройки Spark:
Хотя есть разные способы собрать Spark из исходного кода .
Сначала я попытался собрать исходный код Spark с помощью SBT, но для этого требуется hasoop. Чтобы избежать этих проблем, я использовал готовую версию.
Вместо Source я загрузил Prebuilt-релиз для версии hadoop 2.x и запустил его. Для этого вам необходимо установить Scala в качестве предварительного условия.
Я сопоставил все шаги здесь:
Как запустить Apache Spark в Windows7 в автономном режиме
Надеюсь, это поможет вам .. !!!
источник
Попытка работать с spark-2.xx, сборка исходного кода Spark у меня не сработала.
Итак, хотя я не собираюсь использовать Hadoop, я загрузил предварительно созданный Spark со встроенным hadoop:
spark-2.0.0-bin-hadoop2.7.tar.gz
Наведите SPARK_HOME на извлеченный каталог, затем добавьте в
PATH
:;%SPARK_HOME%\bin;
Загрузите исполняемый файл winutils из репозитория Hortonworks или с winutils платформы Amazon AWS .
Создайте каталог, в который вы поместите исполняемый файл winutils.exe. Например, C: \ SparkDev \ x64. Добавьте переменную среды,
%HADOOP_HOME%
которая указывает на этот каталог, затем добавьте%HADOOP_HOME%\bin
в PATH.Используя командную строку, создайте каталог:
Используя загруженный исполняемый файл, добавьте полные права доступа к созданному вами каталогу файлов, но используя unixian формализм:
Введите следующую командную строку:
Ввод командной строки Scala должен отображаться автоматически.
Примечание: отдельно настраивать Scala не требуется. Он тоже встроен.
источник
Вот исправления, позволяющие запустить его в Windows без перестройки всего, например, если у вас нет последней версии MS-VS. (Вам понадобится компилятор Win32 C ++, но вы можете установить MS VS Community Edition бесплатно.)
Я пробовал это с Spark 1.2.2 и mahout 0.10.2, а также с последними версиями в ноябре 2015 года. Есть ряд проблем, включая тот факт, что код Scala пытается запустить сценарий bash (mahout / bin / mahout), который, конечно, не работает, сценарии sbin не были перенесены в окна, а winutils отсутствуют, если не установлен hadoop.
(1) Установите scala, затем разархивируйте spark / hadoop / mahout в корень C: под соответствующими названиями продуктов.
(2) Переименуйте \ mahout \ bin \ mahout в mahout.sh.was (он нам не понадобится)
(3) Скомпилируйте следующую программу Win32 C ++ и скопируйте исполняемый файл в файл с именем C: \ mahout \ bin \ mahout (правильно - без суффикса .exe, как у исполняемого файла Linux)
(4) Создайте сценарий \ mahout \ bin \ mahout.bat и вставьте его содержимое ниже, хотя точные имена jar-файлов в путях классов _CP будут зависеть от версий spark и mahout. Обновите любые пути для вашей установки. Используйте имена путей 8.3 без пробелов. Обратите внимание, что здесь нельзя использовать подстановочные знаки / звездочки в путях к классам.
Имя переменной MAHOUT_CP не следует изменять, так как на нее есть ссылка в коде C ++.
Конечно, вы можете закомментировать код, запускающий мастер и воркер Spark, потому что Mahout будет запускать Spark по мере необходимости; Я просто включил его в пакетное задание, чтобы показать вам, как его запустить, если вы хотите использовать Spark без Mahout.
(5) Следующий урок - хорошее место для начала:
Вы можете вызвать экземпляр Mahout Spark по адресу:
источник
Руководство Ани Менон (спасибо!) Почти сработало для меня на Windows 10, мне просто нужно было получить новый winutils.exe с этого git (в настоящее время hadoop-2.8.1): https://github.com/steveloughran/winutils
источник
Вот семь шагов, чтобы установить Spark в Windows 10 и запустить его с Python:
Шаг 1. Загрузите файл tar (архив ленты) gz spark 2.2.0 в любую папку F по этой ссылке - https://spark.apache.org/downloads.html . Разархивируйте его и скопируйте распакованную папку в желаемую папку A. Переименуйте папку spark-2.2.0-bin-hadoop2.7 в spark.
Пусть путь к папке искры будет C: \ Users \ Desktop \ A \ spark
Шаг 2: загрузите tar gz-файл hardoop 2.7.3 в ту же папку F по этой ссылке - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Разархивируйте его и скопируйте распакованную папку в ту же папку A. Переименуйте папку с Hadoop-2.7.3.tar в hadoop. Пусть путь к папке hadoop будет C: \ Users \ Desktop \ A \ hadoop
Шаг 3: Создайте новый текстовый файл блокнота. Сохраните этот пустой файл блокнота как winutils.exe (с типом Сохранить как: Все файлы). Скопируйте этот файл winutils.exe размером O КБ в папку bin в Spark - C: \ Users \ Desktop \ A \ spark \ bin
Шаг 4: Теперь мы должны добавить эти папки в Системную среду.
4a: Создайте системную переменную (не пользовательскую переменную, поскольку пользовательская переменная будет наследовать все свойства системной переменной) Имя переменной: SPARK_HOME Значение переменной: C: \ Users \ Desktop \ A \ spark
Найдите системную переменную Path и нажмите Edit. Вы увидите несколько путей. Не удаляйте ни один из путей. Добавьте это значение переменной -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Создайте системную переменную
Имя переменной: HADOOP_HOME Значение переменной: C: \ Users \ Desktop \ A \ hadoop
Найдите системную переменную Path и нажмите Edit. Добавьте это значение переменной -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Создайте системную переменную Имя переменной: JAVA_HOME Поиск Java в Windows. Щелкните правой кнопкой мыши и выберите расположение открытого файла. Вам нужно будет снова щелкнуть правой кнопкой мыши любой из java-файлов и щелкнуть местоположение открытого файла. Вы будете использовать путь к этой папке. ИЛИ вы можете выполнить поиск по C: \ Program Files \ Java. Моя версия Java, установленная в системе, - jre1.8.0_131. Значение переменной: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Найдите системную переменную Path и нажмите Edit. Добавьте это значение переменной -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Шаг 5: Откройте командную строку и перейдите в папку искрового бункера (введите cd C: \ Users \ Desktop \ A \ spark \ bin). Типа искровая гильза.
Это может занять время и дать некоторые предупреждения. Наконец, появится надпись "Добро пожаловать в искру версии 2.2.0".
Шаг 6: Введите exit () или перезапустите командную строку и снова перейдите в папку искрового бункера. Тип pyspark:
Он будет показывать некоторые предупреждения и ошибки, но игнорировать их. Оно работает.
Шаг 7: Ваша загрузка завершена. Если вы хотите напрямую запустить искру из оболочки python, перейдите в раздел Scripts в папке python и введите
в командной строке.
В оболочке Python
импортировать необходимые модули
Если вы хотите пропустить шаги по импорту findspark и его инициализации, следуйте процедуре, указанной в импорте pyspark в оболочку python.
источник
Вот простой минимальный скрипт для запуска с любой консоли Python. Предполагается, что вы распаковали библиотеки Spark, которые вы загрузили, в C: \ Apache \ spark-1.6.1.
Это работает в Windows без каких-либо сборок и решает проблемы, при которых Spark жаловался на рекурсивное травление.
источник
Cloudera и Hortonworks - лучшие инструменты для запуска HDFS в Microsoft Windows. Вы также можете использовать VMWare или VBox для запуска виртуальной машины для создания сборки для вашей HDFS и Spark, Hive, HBase, Pig, Hadoop с помощью Scala, R, Java, Python.
источник