Вопросы с тегом «pyspark»

Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.

201
Как изменить имена столбцов данных в pyspark?

Я пришел из пандского фона и привык читать данные из CSV-файлов в информационном кадре, а затем просто менять имена столбцов на что-то полезное с помощью простой команды: df.columns = new_column_name_list Однако то же самое не работает в фреймах данных pyspark, созданных с использованием...

178
Спарк производительности для Scala против Python

Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. Исходя из этого предположения, я подумал изучить и написать Scala-версию очень распространенного кода предварительной...

148
Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после...

137
Как добавить постоянный столбец в DataFrame Spark?

Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most...

129
Как добавить новый столбец в фрейм данных Spark (используя PySpark)?

У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...

111
импорт pyspark в оболочку python

Это копия чьего-то другого вопроса на другом форуме, на который так и не ответили, поэтому я подумал, что снова задам его здесь, так как у меня такая же проблема. (См. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) У меня правильно установлен Spark на моем компьютере, и я могу без...

110
Загрузите файл CSV с помощью Spark

Я новичок в Spark, и я пытаюсь прочитать данные CSV из файла с помощью Spark. Вот что я делаю: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я ожидал, что этот вызов даст мне список двух первых столбцов моего файла, но я получаю эту ошибку: File...

107
Преобразование столбца Spark DataFrame в список Python

Я работаю над фреймом данных с двумя столбцами, mvv и count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Я хотел бы получить два списка, содержащие значения mvv и значение счета. Что-то типа mvv = [1,2,3,4] count = [5,9,3,1] Итак, я попробовал следующий код: Первая...

105
Отфильтровать столбец фрейма данных Pyspark со значением None

Я пытаюсь отфильтровать фрейм данных PySpark, который имеет Noneзначение строки: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] и я могу...

103
Запуск приложения Spark Kill

У меня есть работающее приложение Spark, где оно занимает все ядра, а другим моим приложениям не будет выделено никаких ресурсов. Я провел небольшое исследование, и люди предложили использовать YARN kill или / bin / spark-class, чтобы убить команду. Однако я использую версию CDH, а / bin /...

102
как изменить столбец Dataframe с типа String на тип Double в pyspark

У меня есть dataframe со столбцом как String. Я хотел изменить тип столбца на тип Double в PySpark. Я сделал следующее: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотел знать, правильный ли это способ...

88
Spark DataFrame groupBy и сортировка в порядке убывания (pyspark)

Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...

87
Как установить версию драйвера python в Spark?

Я использую spark 1.4.0-rc2, поэтому могу использовать python 3 с искрой. Если я добавлю export PYSPARK_PYTHON=python3в свой .bashrc файл, я могу запустить Spark в интерактивном режиме с помощью python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об...

83
Spark Dataframe различает столбцы с повторяющимся именем

Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...

82
Ошибка Spark - неподдерживаемая основная версия файла класса

Я пытаюсь установить Spark на свой Mac. Я использовал самогон для установки Spark 2.4.0 и Scala. Я установил PySpark в свою среду anaconda и использую PyCharm для разработки. Я экспортировал в свой профиль bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export...

81
Как связать PyCharm с PySpark?

Я новичок в apache spark, и, по-видимому, я установил apache-spark с homebrew в свой macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type...

80
Преобразование строки pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате, MM-dd-yyyyи я пытаюсь преобразовать его в столбец даты. Я старался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может помочь?...

16
Как исправить ошибку «TypeError: требуется целое число (получено байтов типа)» при попытке запустить pyspark после установки spark 2.4.4

Я установил OpenJDK 13.0.1 и python 3.8 и спарк 2.4.4. Инструкция по проверке установки заключается в запуске. \ Bin \ pyspark из корня установки spark. Я не уверен, что пропустил какой-то шаг в установке spark, например, установил какую-то переменную окружения, но не могу найти более подробных...

16
Запись более 50 миллионов из Pyspark df в PostgresSQL, лучший эффективный подход

Какой самый эффективный способ вставить миллионы записей, скажем, 50 миллионов из фрейма данных Spark в таблицы Postgres. В прошлом я делал это от spark до MSSQL, используя опцию массового копирования и размера пакета, которая также была успешной. Есть ли что-то подобное, что может быть здесь для...

16
Spark: Почему Python значительно превосходит Scala в моем случае использования?

Чтобы сравнить производительность Spark при использовании Python и Scala, я создал одно и то же задание на обоих языках и сравнил время выполнения. Я ожидал, что обе работы займут примерно одинаковое количество времени, но работа с Python заняла только одно, а работа с 27minScala - 37minпочти на...