Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.
Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.
Я пытаюсь настроить Apache Spark в Windows. Немного поискав, я понимаю, что мне нужен автономный режим. Какие двоичные файлы мне загрузить, чтобы запустить Apache Spark в Windows? Я вижу дистрибутивы с hadoop и cdh на странице загрузки Spark. У меня нет ссылок на это в сети. Мы высоко ценим...
Что в моей искровой оболочке означают записи, подобные приведенным ниже, когда я выполняю функцию? [Stage7:===========> (14174 + 5) / 62500]
Я собрал Spark 1.4 из мастера разработки GH, и сборка прошла нормально. Но когда я делаю это, bin/pysparkя получаю версию Python 2.7.9. Как я могу это изменить?
Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...
У меня есть приложение Spark, которое работает без проблем в локальном режиме, но имеет некоторые проблемы при отправке в кластер Spark. Сообщение об ошибке выглядит следующим образом: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02):...
Я не могу выполнить простую sparkработу в Scala IDE(проекте Maven Spark), установленном наWindows 7 Добавлена зависимость ядра Spark. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Ошибка:...
Есть ли зависимости между Spark и Hadoop ? Если нет, то есть ли какие-то функции, которые я пропущу при запуске Spark без Hadoop ?
Я выполняю задание Spark в режиме предположений. У меня около 500 задач и около 500 сжатых файлов размером 1 ГБ gz. Я продолжаю выполнять каждую работу, для 1-2 задач, прикрепленную ошибку, где она повторяется впоследствии десятки раз (препятствуя завершению работы)....
Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...
Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об...
Я попытался запустить spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) в Mac OS Yosemite 10.10.5, используя "./bin/spark-shell". Ниже приведена ошибка. Я также пытался установить разные версии Spark, но у всех была одна и та же ошибка. Это второй раз, когда я запускаю Spark. Мой предыдущий запуск работает...
Из моего пользовательского интерфейса Spark. Что значит пропущено?
Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в...
Можно ли сохранить DataFrameв Spark прямо в Hive? Я попытался преобразовать DataFrameв Rddтекстовый файл, а затем сохранить его и загрузить в куст. Но мне интересно, могу ли я напрямую сохранить dataframeв улей...
Где вы начинаете настраивать вышеупомянутые параметры. Начнем ли мы с памяти исполнителя и получим количество исполнителей, или мы начнем с ядер и получим номер исполнителя. Я перешел по ссылке . Однако получил представление на высоком уровне, но все еще не уверен, как и с чего начать и прийти к...
Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...
Я хочу изменить конфигурацию Typafe для задания Spark в среде dev / prod. Мне кажется, что самый простой способ добиться этого - перейти -Dconfig.resource=ENVNAMEна работу. Тогда библиотека конфигурации Typesafe сделает всю работу за меня. Есть ли способ передать эту возможность напрямую работе?...
Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export...
Я прочитал документацию по HashPartitioner. К сожалению, ничего не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitionerраспределенный набор разбивается на разделы на основе хэша ключей. Например, если мои данные похожи на (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Таким...