Вопросы с тегом «apache-spark»

Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.

254
Spark - repartition () против coalesce ()

По данным Learning Spark Имейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repartition()call, coalesce()которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. Одно из...

228
Spark java.lang.OutOfMemoryError: пространство кучи Java

Мой кластер: 1 ведущий, 11 ведомых, каждый узел имеет 6 ГБ памяти. Мои настройки: spark.executor.memory=4g, Dspark.akka.frameSize=512 Вот проблема: Сначала я прочитал некоторые данные (2,19 ГБ) из HDFS в RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Во-вторых , сделайте что-нибудь на этом RDD:...

224
Задача не сериализуема: java.io.NotSerializableException при вызове функции вне замыкания только для классов, а не объектов

Странное поведение при вызове функции вне замыкания: когда функция находится в объекте, все работает когда функция находится в классе get: Задача не сериализуема: java.io.NotSerializableException: тестирование Проблема в том, что мне нужен мой код в классе, а не объект. Есть идеи, почему это...

219
Что такое рабочие, исполнители, ядра в кластере Spark Standalone?

Я прочитал обзор режима кластера и до сих пор не могу понять различные процессы в автономном кластере Spark и параллелизм. Рабочий процесс JVM или нет? Я запустил bin\start-slave.shи обнаружил, что он породил рабочего, который на самом деле является JVM. Согласно приведенной выше ссылке,...

205
Как отобразить содержимое полного столбца в кадре данных Spark?

Я использую spark-CSV для загрузки данных в DataFrame. Я хочу сделать простой запрос и отобразить содержимое: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks");...

201
Как изменить имена столбцов данных в pyspark?

Я пришел из пандского фона и привык читать данные из CSV-файлов в информационном кадре, а затем просто менять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list Однако то же самое не работает в фреймах данных pyspark, созданных с использованием...

195
Apache Spark: количество ядер и количество исполнителей

Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32...

181
Как остановить отображение сообщений INFO на спарк-консоли?

Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я попытался отредактировать log4j.propertiesфайл, чтобы остановить это сообщение. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console...

179
Как прочитать несколько текстовых файлов в одном RDD?

Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark. JavaRDD<String> records = ctx.textFile(args[1], 1); способен читать только один файл за раз. Я хочу прочитать более одного файла и обработать их как один RDD....

178
Спарк производительности для Scala против Python

Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. Исходя из этого предположения, я подумал изучить и написать Scala-версию очень распространенного кода предварительной...

171
(Почему) нам нужно вызвать кэш или сохранить на RDD

Когда эластичный распределенный набор данных (RDD) создается из текстового файла или коллекции (или из другого RDD), нужно ли явно вызывать «cache» или «persist» для сохранения данных RDD в памяти? Или данные СДР по умолчанию хранятся в памяти распределенным способом? val textFile =...

158
Добавить баночки в Spark Job - spark-submit

Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации или опциях jars / executor / driver. Двусмысленные и / или опущенные детали Следуя двусмысленности, неясные и / или пропущенные детали...

149
Как этапы делятся на задачи в Spark?

Предположим, что в каждый момент времени выполняется только одно задание Spark. Что я получил до сих пор Вот что я понимаю в Spark: Когда SparkContextсоздается, каждый рабочий узел запускает исполнителя. Исполнители - это отдельные процессы (JVM), которые подключаются к программе драйвера. У...

149
Как хранить пользовательские объекты в наборе данных?

В соответствии с введением наборов данных Spark : В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодировщики для широкого спектра типов, мы хотели бы...

148
Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после...

147
Spark - загрузить файл CSV как DataFrame?

Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is...