Вопросы с тегом «apache-spark-sql»

16
Запись более 50 миллионов из Pyspark df в PostgresSQL, лучший эффективный подход

Какой самый эффективный способ вставить миллионы записей, скажем, 50 миллионов из фрейма данных Spark в таблицы Postgres. В прошлом я делал это от spark до MSSQL, используя опцию массового копирования и размера пакета, которая также была успешной. Есть ли что-то подобное, что может быть здесь для...

9
Spark: UDF исполняется много раз

У меня есть датафрейм со следующим кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2",...