Вопросы с тегом «apache-spark»

81

В какой ситуации я могу использовать Dask вместо Apache Spark? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 4 года назад . Уточните этот вопрос В настоящее время я использую Pandas и...

81

Как связать PyCharm с PySpark?

Я новичок в apache spark, и, по-видимому, я установил apache-spark с homebrew в свой macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type...

python apache-spark pyspark pycharm homebrew

80

Преобразование строки pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате, MM-dd-yyyyи я пытаюсь преобразовать его в столбец даты. Я старался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может помочь?...

apache-spark pyspark apache-spark-sql pyspark-sql

79

Как предотвратить java.lang.OutOfMemoryError: PermGen space при компиляции Scala?

Я заметил странное поведение моего компилятора scala. Иногда при компиляции класса возникает ошибка OutOfMemoryError. Вот сообщение об ошибке: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space...

scala apache-spark memory-management sbt scalatra-sbt

20

Вычислить среднюю скорость дороги [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, отредактировав этот пост. . Закрыто 4 дня назад . Я пошел на собеседование по работе с инженером данных...

apache-spark apache-kafka stream-processing

17

Тупик, когда одновременно запланировано много рабочих мест

Использование spark 2.4.4 в кластерном режиме YARN с планировщиком FIFO spark. Я отправляю несколько операций с пламенем в dataframe (т.е. записываю данные в S3), используя исполнителя пула потоков с переменным числом потоков. Это работает нормально, если у меня ~ 10 потоков, но если я использую...

apache-spark

16

Как исправить ошибку «TypeError: требуется целое число (получено байтов типа)» при попытке запустить pyspark после установки spark 2.4.4

Я установил OpenJDK 13.0.1 и python 3.8 и спарк 2.4.4. Инструкция по проверке установки заключается в запуске. \ Bin \ pyspark из корня установки spark. Я не уверен, что пропустил какой-то шаг в установке spark, например, установил какую-то переменную окружения, но не могу найти более подробных...

apache-spark pyspark

16

Запись более 50 миллионов из Pyspark df в PostgresSQL, лучший эффективный подход

Какой самый эффективный способ вставить миллионы записей, скажем, 50 миллионов из фрейма данных Spark в таблицы Postgres. В прошлом я делал это от spark до MSSQL, используя опцию массового копирования и размера пакета, которая также была успешной. Есть ли что-то подобное, что может быть здесь для...

postgresql apache-spark pyspark apache-spark-sql bigdata

16

Spark: Почему Python значительно превосходит Scala в моем случае использования?

Чтобы сравнить производительность Spark при использовании Python и Scala, я создал одно и то же задание на обоих языках и сравнил время выполнения. Я ожидал, что обе работы займут примерно одинаковое количество времени, но работа с Python заняла только одно, а работа с 27minScala - 37minпочти на...

python scala apache-spark pyspark

12

pandasUDF и пиарроу 0.15.0

Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at...

pandas apache-spark pyspark pyarrow

10

Apache Spark: влияние перераспределения, сортировки и кэширования на соединение

Я исследую поведение Спарка, когда присоединяю стол к себе. Я использую Databricks. Мой глупый сценарий: Прочитать внешнюю таблицу как фрейм данных A (лежащие в основе файлы в дельта-формате) Определите фрейм данных B как фрейм данных A с выбранными только определенными столбцами Соедините кадры...

apache-spark pyspark bigdata azure-databricks delta-lake

9

Spark: UDF исполняется много раз

У меня есть датафрейм со следующим кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2",...

scala apache-spark apache-spark-sql

9

Применение функции Python к сгруппированной в DataFrame группе Pandas - какой наиболее эффективный подход для ускорения вычислений?

Я имею дело с довольно большим Pandas DataFrame - мой набор данных похож на следующую dfнастройку: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat(...

python pandas apache-spark parallel-processing dask