Вопросы с тегом «pyspark»

12
pandasUDF и пиарроу 0.15.0

Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at...

10
Apache Spark: влияние перераспределения, сортировки и кэширования на соединение

Я исследую поведение Спарка, когда присоединяю стол к себе. Я использую Databricks. Мой глупый сценарий: Прочитать внешнюю таблицу как фрейм данных A (лежащие в основе файлы в дельта-формате) Определите фрейм данных B как фрейм данных A с выбранными только определенными столбцами Соедините кадры...