Вопросы с тегом «parquet»

137
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

Характеристики паркета Apache: Самоописание Столбчатый формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Мне нужен обзор форматов. Я уже читал: Как Impala работает с форматами файлов Hadoop , он дает некоторое представление о форматах, но я хотел бы знать, как доступ...

92
Авро против Паркет

Я планирую использовать один из файловых форматов hadoop для своего проекта, связанного с hadoop. Я понимаю, что паркет эффективен для запросов на основе столбцов и avro для полного сканирования или когда нам нужны все данные столбцов! Прежде чем я продолжу и выберу один из форматов файла, я хочу...

89
В чем разница между пером и паркетом?

Оба являются колоночными (дисковыми) форматами хранения для использования в системах анализа данных. Оба интегрированы в Apache Arrow ( пакет pyarrow для python) и предназначены для соответствия со Arrow как столбцовым аналитическим слоем в памяти. Чем отличаются оба формата? Всегда ли вы...

87
Паркет против ORC против ORC с Snappy

Я провожу несколько тестов форматов хранения, доступных в Hive, и использую Parquet и ORC в качестве основных опций. Я включил ORC один раз со сжатием по умолчанию и один раз с Snappy. Я читал много документов, в которых утверждается, что Parquet лучше по сложности во времени и пространстве по...