Вопросы с тегом «distributed-computing»

377
Объясняя Apache ZooKeeper

Я пытаюсь понять ZooKeeper, как он работает и что он делает. Есть ли приложение, которое можно сравнить с ZooKeeper? Если вы знаете, то как бы вы описали ZooKeeper для неспециалистов? Я пробовал Apache Wiki, Zookeeper SourceForge ... но я до сих пор не могу с этим справиться. Я только что прочитал...

254
Spark - repartition () против coalesce ()

По данным Learning Spark Имейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repartition()call, coalesce()которая позволяет избежать перемещения данных, но только если вы уменьшаете количество разделов RDD. Одно из...

219
Что такое рабочие, исполнители, ядра в кластере Spark Standalone?

Я прочитал обзор режима кластера и до сих пор не могу понять различные процессы в автономном кластере Spark и параллелизм. Рабочий процесс JVM или нет? Я запустил bin\start-slave.shи обнаружил, что он породил рабочего, который на самом деле является JVM. Согласно приведенной выше ссылке,...

170
От чего зависит потребительское смещение Кафки?

Я относительно новичок в Кафке. Я немного поэкспериментировал с этим, но некоторые вещи мне неясны в отношении компенсации потребителю. Из того, что я понял до сих пор, когда потребитель начинает, смещение, с которого он начнет читать, определяется настройкой конфигурации...

127
Рассчитайте медиану миллиарда чисел

Если у вас есть миллиард чисел и сто компьютеров, как лучше всего найти медианное значение этих чисел? Одно из решений, которое у меня есть: Разделите набор поровну между компьютерами. Сортируйте их. Найдите медианы для каждого набора. Отсортируйте наборы по медианам. Объедините два набора...