Вопросы с тегом «apache-spark»

100

Как создать пустой DataFrame с указанной схемой?

Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.

93

Как настроить Spark в Windows?

Я пытаюсь настроить Apache Spark в Windows. Немного поискав, я понимаю, что мне нужен автономный режим. Какие двоичные файлы мне загрузить, чтобы запустить Apache Spark в Windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки Spark. У меня нет ссылок на это в сети. Мы высоко ценим...

windows apache-spark

93

Что означают числа на индикаторе выполнения в Spark-Shell?

Что в моей искровой оболочке означают записи, подобные приведенным ниже, когда я выполняю функцию? [Stage7:===========> (14174 + 5) / 62500]

apache-spark

93

Apache Spark: как использовать pyspark с Python 3

Я собрал Spark 1.4 из мастера разработки GH, и сборка прошла нормально. Но когда я делаю это, bin/pysparkя получаю версию Python 2.7.9. Как я могу это изменить?

python python-3.x apache-spark

93

Переименование имен столбцов DataFrame в Spark Scala

Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...

scala apache-spark dataframe apache-spark-sql

93

Spark - Ошибка «В конфигурации должен быть указан главный URL» при отправке приложения.

У меня есть приложение Spark, которое работает без проблем в локальном режиме, но имеет некоторые проблемы при отправке в кластер Spark. Сообщение об ошибке выглядит следующим образом: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):...

scala apache-spark

92

java.io.IOException: не удалось найти исполняемый файл null \ bin \ winutils.exe в двоичных файлах Hadoop. Spark Eclipse на Windows 7

Я не могу выполнить простую sparkработу в Scala IDE(проекте Maven Spark), установленном наWindows 7 Добавлена зависимость ядра Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Ошибка:...

eclipse scala apache-spark

91

Может ли Apache Spark работать без HADOOP?

Есть ли зависимости между Spark и Hadoop ? Если нет, то есть ли какие-то функции, которые я пропущу при запуске Spark без Hadoop ?

hadoop amazon-s3 apache-spark mapreduce mesos

88

Почему задания Spark завершаются сбоем из-за org.apache.spark.shuffle.MetadataFetchFailedException: отсутствует выходное расположение для перемешивания 0 в режиме предположений?

Я выполняю задание Spark в режиме предположений. У меня около 500 задач и около 500 сжатых файлов размером 1 ГБ gz. Я продолжаю выполнять каждую работу, для 1-2 задач, прикрепленную ошибку, где она повторяется впоследствии десятки раз (препятствуя завершению работы)....

apache-spark

88

Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)

Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...

python apache-spark dataframe pyspark apache-spark-sql

87

Как установить версию драйвера python в Spark?

Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об...

apache-spark pyspark

87

Ошибка искровой оболочки Mac при инициализации SparkContext

Я попытался запустить spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) в Mac OS Yosemite 10.10.5, используя "./bin/spark-shell". Ниже приведена ошибка. Я также пытался установить разные версии Spark, но у всех была одна и та же ошибка. Это второй раз, когда я запускаю Spark. Мой предыдущий запуск работает...

apache-spark

87

Что означает «Этап пропущен» в веб-интерфейсе Apache Spark?

Из моего пользовательского интерфейса Spark. Что значит пропущено?

apache-spark rdd

86

Извлечь значения столбцов Dataframe как список в Apache Spark

Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в...

scala apache-spark apache-spark-sql

85

Как сохранить DataFrame прямо в Hive?

Можно ли сохранить DataFrameв Spark прямо в Hive? Я попытался преобразовать DataFrameв Rddтекстовый файл, а затем сохранить его и загрузить в куст. Но мне интересно, могу ли я напрямую сохранить dataframeв улей...

scala apache-spark hive apache-spark-sql

84

Как настроить номер исполнителя искры, количество ядер и память исполнителя?

Где вы начинаете настраивать вышеупомянутые параметры. Начнем ли мы с памяти исполнителя и получим количество исполнителей, или мы начнем с ядер и получим номер исполнителя. Я перешел по ссылке . Однако получил представление на высоком уровне, но все еще не уверен, как и с чего начать и прийти к...

apache-spark

83

Spark Dataframe различает столбцы с повторяющимся именем

Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...

python apache-spark dataframe pyspark apache-spark-sql

83

Как передать параметр -D или переменную среды в задание Spark?

Я хочу изменить конфигурацию Typafe для задания Spark в среде dev / prod. Мне кажется, что самый простой способ добиться этого - перейти -Dconfig.resource=ENVNAMEна работу. Тогда библиотека конфигурации Typesafe сделает всю работу за меня. Есть ли способ передать эту возможность напрямую работе?...

scala apache-spark

82

Ошибка Spark - неподдерживаемая основная версия файла класса

Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export...

java python macos apache-spark pyspark

82

Как работает HashPartitioner?

Я прочитал документацию по HashPartitioner. К сожалению, ничего не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitionerраспределенный набор разбивается на разделы на основе хэша ключей. Например, если мои данные похожи на (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Таким...

scala apache-spark rdd partitioning