Вопросы с тегом «apache-spark»

93
Как настроить Spark в Windows?

Я пытаюсь настроить Apache Spark в Windows. Немного поискав, я понимаю, что мне нужен автономный режим. Какие двоичные файлы мне загрузить, чтобы запустить Apache Spark в Windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки Spark. У меня нет ссылок на это в сети. Мы высоко ценим...

93
Переименование имен столбцов DataFrame в Spark Scala

Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

93
Spark - Ошибка «В конфигурации должен быть указан главный URL» при отправке приложения.

У меня есть приложение Spark, которое работает без проблем в локальном режиме, но имеет некоторые проблемы при отправке в кластер Spark. Сообщение об ошибке выглядит следующим образом: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):...

92
java.io.IOException: не удалось найти исполняемый файл null \ bin \ winutils.exe в двоичных файлах Hadoop. Spark Eclipse на Windows 7

Я не могу выполнить простую sparkработу в Scala IDE(проекте Maven Spark), установленном наWindows 7 Добавлена ​​зависимость ядра Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Ошибка:...

88
Почему задания Spark завершаются сбоем из-за org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 в режиме предположений?

Я выполняю задание Spark в режиме предположений. У меня около 500 задач и около 500 сжатых файлов размером 1 ГБ gz. Я продолжаю выполнять каждую работу, для 1-2 задач, прикрепленную ошибку, где она повторяется впоследствии десятки раз (препятствуя завершению работы)....

88
Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)

Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...

87
Как установить версию драйвера python в Spark?

Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об...

87
Ошибка искровой оболочки Mac при инициализации SparkContext

Я попытался запустить spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) в Mac OS Yosemite 10.10.5, используя "./bin/spark-shell". Ниже приведена ошибка. Я также пытался установить разные версии Spark, но у всех была одна и та же ошибка. Это второй раз, когда я запускаю Spark. Мой предыдущий запуск работает...

86
Извлечь значения столбцов Dataframe как список в Apache Spark

Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в...

84
Как настроить номер исполнителя искры, количество ядер и память исполнителя?

Где вы начинаете настраивать вышеупомянутые параметры. Начнем ли мы с памяти исполнителя и получим количество исполнителей, или мы начнем с ядер и получим номер исполнителя. Я перешел по ссылке . Однако получил представление на высоком уровне, но все еще не уверен, как и с чего начать и прийти к...

83
Spark Dataframe различает столбцы с повторяющимся именем

Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...

83
Как передать параметр -D или переменную среды в задание Spark?

Я хочу изменить конфигурацию Typafe для задания Spark в среде dev / prod. Мне кажется, что самый простой способ добиться этого - перейти -Dconfig.resource=ENVNAMEна работу. Тогда библиотека конфигурации Typesafe сделает всю работу за меня. Есть ли способ передать эту возможность напрямую работе?...

82
Ошибка Spark - неподдерживаемая основная версия файла класса

Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export...

82
Как работает HashPartitioner?

Я прочитал документацию по HashPartitioner. К сожалению, ничего не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitionerраспределенный набор разбивается на разделы на основе хэша ключей. Например, если мои данные похожи на (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Таким...