Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в
Apache Spark SQL - это инструмент для «обработки SQL и структурированных данных» в Spark, быстрой и универсальной кластерной вычислительной системе. Его можно использовать для извлечения данных из Hive, Parquet и т. Д. И выполнения SQL-запросов по существующим RDD и Datasets.
Мне просто интересно, в чем разница между RDDand и DataFrame (Spark 2.0.0 DataFrame - просто псевдоним типа Dataset[Row]) в Apache Spark? Можете ли вы преобразовать одно в
Предположим, я делаю что-то вроде: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable...
Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is...
Как преобразовать RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) в Dataframe org.apache.spark.sql.DataFrame. Я преобразовал фрейм данных в rdd, используя .rdd. После обработки я хочу вернуть его в фрейм данных. Как я могу это сделать ?...
У меня есть DataFrame, сгенерированный следующим образом: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результаты выглядят так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0|...
Я пробовал, df.orderBy("col1").show(10)но сортировка по возрастанию. df.sort("col1").show(10)также сортирует в порядке убывания. Я посмотрел на stackoverflow, и все ответы, которые я нашел, были устаревшими или относились к RDD . Я хотел бы использовать собственный фрейм данных в...
Я хочу добавить столбец в DataFrameс произвольным значением (то же самое для каждой строки). Я получаю ошибку, когда использую withColumnследующее: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most...
Я начал использовать Spark SQL и DataFrames в Spark 1.4.0. Я хочу определить пользовательский разделитель в DataFrames в Scala, но не знаю, как это сделать. Одна из таблиц данных, с которыми я работаю, содержит список транзакций по учетной записи, силимар к следующему примеру. Account Date Type...
У меня есть Spark DataFrame (с использованием PySpark 1.5.1), и я хотел бы добавить новый столбец. Я безуспешно пробовал следующее: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col =...
Как объединить два столбца в фрейме данных Apache Spark? Есть ли в Spark SQL какая-либо функция, которую мы можем
Я пытаюсь отфильтровать фрейм данных PySpark, который имеет Noneзначение строки: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] и я могу...
У меня есть dataframe со столбцом как String. Я хотел изменить тип столбца на тип Double в PySpark. Я сделал следующее: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотел знать, правильный ли это способ...
Прямо сейчас я должен использовать, df.count > 0чтобы проверить DataFrame, пуст или нет. Но это неэффективно. Есть ли лучший способ сделать это? Спасибо. PS: я хочу проверить, пуст ли он, чтобы я сохранял только, DataFrameесли он не пустой...
Я хочу создать по DataFrameуказанной схеме в Scala. Я пробовал использовать чтение JSON (я имею в виду чтение пустого файла), но не думаю, что это лучшая практика.
Я пытаюсь преобразовать все заголовки / имена столбцов DataFrameв Spark-Scala. на данный момент я придумываю следующий код, который заменяет только одно имя столбца. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }...
Я использую pyspark (Python 2.7.9 / Spark 1.3.1) и имею объект GroupObject фрейма данных, который мне нужно фильтровать и сортировать в порядке убывания. Пытаюсь достичь этого с помощью этого фрагмента кода. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Но...
Я хочу преобразовать строковый столбец фрейма данных в список. В DataframeAPI я могу найти RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArrayфункцию к RDD. В этом случае длина и SQL работают нормально. Однако результат, который я получил от RDD, заключен в...
Можно ли сохранить DataFrameв Spark прямо в Hive? Я попытался преобразовать DataFrameв Rddтекстовый файл, а затем сохранить его и загрузить в куст. Но мне интересно, могу ли я напрямую сохранить dataframeв улей...
Итак, как я знаю в Spark Dataframe, несколько столбцов могут иметь то же имя, что и на снимке ниже: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0,...
У меня есть дата-фрейм pyspark со строковым столбцом в формате, MM-dd-yyyyи я пытаюсь преобразовать его в столбец даты. Я старался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может помочь?...