Вопросы с тегом «hadoop»

Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.

269
Предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы»

В настоящее время я настраиваю hadoop на сервере под управлением CentOs . Когда я запускаю start-dfs.shили stop-dfs.sh, я получаю следующую ошибку: WARN util.NativeCodeLoader: невозможно загрузить библиотеку native-hadoop для вашей платформы ... с использованием встроенных классов java, где это...

256
Разница между Свинья и Улей? Почему оба? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 4 года назад . Улучшить этот вопрос Мой опыт - 4 недели в мире Hadoop. Немного поболтал в...

195
Apache Spark: количество ядер и количество исполнителей

Я пытаюсь понять взаимосвязь количества ядер и количества исполнителей при запуске задания Spark на YARN. Тестовая среда выглядит следующим образом: Количество узлов данных: 3 Спецификация машины узла данных: Процессор: Core i7-4790 (количество ядер: 4, количество потоков: 8) Оперативная память: 32...

185
Когда использовать Hadoop, HBase, Hive и Pig?

Каковы преимущества использования либо Hadoop или HBase или улей ? Насколько я понимаю, HBase избегает использования map-Reduce и имеет ориентированное на столбцы хранилище поверх HDFS. Hive - это sql-подобный интерфейс для Hadoop и HBase . Я также хотел бы знать, как Hive сравнивается с Pig...

148
Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу, используя bin/pysparkсценарий, чтобы добраться до подсказки искры, а также могу успешно выполнить Quick Start quide. Однако, хоть убей, я не могу понять, как остановить подробное INFOведение журнала после...

147
Spark - загрузить файл CSV как DataFrame?

Я хотел бы прочитать CSV в искре и преобразовать его как DataFrame и сохранить в HDFS с помощью df.registerTempTable("table_name") Я пытался: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is...

137
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?

Характеристики паркета Apache: Самоописание Столбчатый формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Мне нужен обзор форматов. Я уже читал: Как Impala работает с форматами файлов Hadoop , он дает некоторое представление о форматах, но я хотел бы знать, как доступ...

130
Разница между HBase и Hadoop / HDFS

Это своего рода наивный вопрос, но я новичок в парадигме NoSQL и мало о ней знаю. Итак, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать несколько указателей, которые могут помочь мне понять разницу. До сих пор я провел небольшое исследование и соотв. Насколько я...

124
Объединение нескольких заданий MapReduce в Hadoop

Во многих реальных ситуациях, когда вы применяете MapReduce, окончательные алгоритмы превращаются в несколько шагов MapReduce. т.е. Map1, Reduce1, Map2, Reduce2 и так далее. Итак, у вас есть результат последнего сокращения, который необходим в качестве входных данных для следующей карты....

119
Как записи процесса Hadoop разделяются по границам блоков?

Согласно Hadoop - The Definitive Guide Логические записи, которые определяет FileInputFormats, обычно не помещаются аккуратно в блоки HDFS. Например, логические записи TextInputFormat - это строки, которые чаще всего пересекают границы HDFS. Это не имеет никакого отношения к работе вашей программы...

113
Какова цель фазы перетасовки и сортировки в редукторе в программе Map Reduce?

В программировании Map Reduce фаза сокращения включает в себя перемешивание, сортировку и сокращение в качестве своих частей. Сортировка - дело затратное. Какова цель фазы перетасовки и сортировки в редукторе в программе Map...

110
Разница между внутренними таблицами Hive и внешними таблицами?

Может ли кто-нибудь сказать мне разницу между внешней таблицей Hive и внутренними таблицами. Я знаю, что разница наступает, когда вы бросаете стол. Я не понимаю, что вы имеете в виду, говоря, что данные и метаданные удаляются во внутренних таблицах, а во внешних таблицах удаляются только...

110
Как работает алгоритм сортировки MapReduce?

Одним из основных примеров, который используется для демонстрации возможностей MapReduce, является тест Terasort . Мне сложно понять основы алгоритма сортировки, используемого в среде MapReduce. Для меня сортировка просто включает определение относительного положения элемента по отношению ко всем...

109
Не удалось найти двоичный файл winutils в двоичном пути hadoop

При запуске namenode для последней версии hadoop-2.2 возникает следующая ошибка. Я не нашел exe-файл winutils в папке bin hasoop. Я пробовал команды ниже $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to...

98
Есть ли .NET-эквивалент Apache Hadoop? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 4 года назад . Уточните этот вопрос Итак, я с большим интересом смотрел на Hadoop...