Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в
Apache Spark - это механизм распределенной обработки данных с открытым исходным кодом, написанный на Scala, который предоставляет унифицированный API и распределенные наборы данных пользователям. Примеры использования Apache Spark часто связаны с машинным / глубоким обучением, обработкой графиков.
Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в
По данным Learning Spark Имейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repartition()call, coalesce()которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. Одно из...
Может кто-нибудь объяснить мне разницу между map и flatMap и каков хороший вариант использования для каждого? Что значит «сгладить результаты»? Для чего
Мой кластер: 1 ведущий, 11 ведомых, каждый узел имеет 6 ГБ памяти. Мои настройки: spark.executor.memory=4g, Dspark.akka.frameSize=512 Вот проблема: Сначала я прочитал некоторые данные (2,19 ГБ) из HDFS в RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Во-вторых , сделайте что-нибудь на этом RDD:...
Странное поведение при вызове функции вне замыкания: когда функция находится в объекте, все работает когда функция находится в классе get: Задача не сериализуема: java.io.NotSerializableException: тестирование Проблема в том, что мне нужен мой код в классе, а не объект. Есть идеи, почему это...
Я прочитал обзор режима кластера и до сих пор не могу понять различные процессы в автономном кластере Spark и параллелизм. Рабочий процесс JVM или нет? Я запустил bin\start-slave.shи обнаружил, что он породил рабочего, который на самом деле является JVM. Согласно приведенной выше ссылке,...
Я использую spark-CSV для загрузки данных в DataFrame. Я хочу сделать простой запрос и отобразить содержимое: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks");...
С точки зрения RDDнастойчивости, каковы различия между cache()и persist()в
Я пришел из пандского фона и привык читать данные из CSV-файлов в информационном кадре, а затем просто менять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list Однако то же самое не работает в фреймах данных pyspark, созданных с использованием...
Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32...
Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я попытался отредактировать log4j.propertiesфайл, чтобы остановить это сообщение. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console...
Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark. JavaRDD<String> records = ctx.textFile(args[1], 1); способен читать только один файл за раз. Я хочу прочитать более одного файла и обработать их как один RDD....
Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. Исходя из этого предположения, я подумал изучить и написать Scala-версию очень распространенного кода предварительной...
Когда эластичный распределенный набор данных (RDD) создается из текстового файла или коллекции (или из другого RDD), нужно ли явно вызывать «cache» или «persist» для сохранения данных RDD в памяти? Или данные СДР по умолчанию хранятся в памяти распределенным способом? val textFile =...
Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации или опциях jars / executor / driver. Двусмысленные и / или опущенные детали Следуя двусмысленности, неясные и / или пропущенные детали...
Предположим, я делаю что-то вроде: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable...
Предположим, что в каждый момент времени выполняется только одно задание Spark. Что я получил до сих пор Вот что я понимаю в Spark: Когда SparkContextсоздается, каждый рабочий узел запускает исполнителя. Исполнители - это отдельные процессы (JVM), которые подключаются к программе драйвера. У...
В соответствии с введением наборов данных Spark : В преддверии Spark 2.0 мы планируем несколько интересных улучшений в наборах данных, в частности: ... Пользовательские кодировщики - в то время как в настоящее время мы автоматически генерируем кодировщики для широкого спектра типов, мы хотели бы...
Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после...
Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is...