apache-spark
rdd
Аравинд Яррам
источник
источник
Обычно это означает, что данные были извлечены из кеша и не было необходимости повторно выполнять данный этап. Это согласуется с вашим DAG, который показывает, что на следующем этапе требуется shuffling ( reduceByKey
). Всякий раз, когда происходит перетасовка, Spark автоматически кэширует сгенерированные данные :
Shuffle также генерирует большое количество промежуточных файлов на диске. Начиная с Spark 1.3, эти файлы сохраняются до тех пор, пока соответствующие RDD не перестанут использоваться и не будут удалены сборщиком мусора. Это сделано для того, чтобы файлы перемешивания не создавались заново, если происхождение пересчитывается заново.