Кто использует R с многоядерными пакетами, пакетами SNOW или CUDA для ресурсоемких вычислений?

16

Кто из вас в этом форуме использованиях «> R с многоядерным , снежными пакетами, или CUDA , поэтому для сложных вычислений , которые требуют больше энергии , чем рабочая станцию CPU? На каких аппаратные вы вычислите эти сценарии? На главной / работе или у вас есть доступ к центру данных где-нибудь?

История этих вопросов следующая: в настоящее время я пишу свою магистерскую диссертацию. Тезис о R и высокопроизводительных вычислениях и мне нужны глубокие знания о том, кто на самом деле использует R. Я читал, что в 2008 году у R было 1 миллион пользователей, но это более или менее единственная статистика пользователей, которую я смог найти по этой теме - так что я надеюсь, что вы ответы!

С уважением Генрих

Генрих
источник
Возможный связанный вопрос, stats.stackexchange.com/questions/825/… .
ЧЛ
Точный дубликат stat.ethz.ch/pipermail/r-help/2010-November/259921.html
Джошуа Ульрих

Ответы:

6

Я биолог, который моделирует влияние межгодового изменения климата на динамику популяции нескольких мигрирующих видов. Мои наборы данных очень большие (объемные данные), поэтому я использую код R multicoreна серверах Amazon EC2. Если моя задача особенно ресурсоемкая, я выберу экземпляр High Large Quadruple Extra Large с 26 процессорами, 8 ядрами и 68 ГБ оперативной памяти. В этом случае я обычно запускаю 4-6 сценариев одновременно, каждый из которых работает с довольно большим набором данных. Для небольших задач я выбираю серверы с 4-6 ядрами и около 20 гигабайт оперативной памяти.

Я запускаю эти экземпляры (обычно они обнаруживаются, потому что они дешевле, но могут прекратить работу в любое время, когда текущая ставка превышает установленную мной плату), запускаю сценарий в течение нескольких часов, а затем прекращаю выполнение экземпляра после завершения сценария. Что касается образа машины (Amazon Machine Image), я взял у кого-то еще установку Ubuntu, обновил R, установил свои пакеты и сохранил их в качестве своего частного AMI в своем хранилище S3.

Моя персональная машина - двухъядерный MacBook Pro, и ей тяжело принимать многоядерные звонки. Не стесняйтесь, пишите, если у вас есть другие вопросы.

майазаура
источник
Можете ли вы сказать, пожалуйста, каков размер вашего набора данных.
Suncoolsu
Конечно. Наборы данных, с которыми я сейчас работаю, ~ 14 концертов
Maiasaura
4

Поскольку вы спрашиваете, я использую пакет foreach с многоядерным бэкэндом. Я использую его, чтобы разделить смущающе параллельную рабочую нагрузку между несколькими ядрами на одной коробке Nehalem с большим количеством оперативной памяти. Это хорошо работает для поставленной задачи.

NPE
источник
Спасибо за Ваш ответ! Делаете ли вы вычисления для вашей работы / академических исследований или для собственных проектов на собственном ПК?
Генрих
Это делается в коммерческих условиях. Для этой задачи я использую один блок Intel с 32 ГБ ОЗУ и дисками RAID (основная трудность заключается в большом количестве данных, хотя сама обработка не требует больших вычислительных ресурсов).
NPE,
Хорошо @aix, как часто вы выполняете эти вычисления. У вас бокс работает целый день или больше простаивает?
Генрих
Быстрый вопрос к @NPE: в какой системе вы храните данные? вы используете базу данных бэк-энда?
nassimhddd
3

Я работаю в академии, и я использую многоядерный для некоторых тяжелых тестов алгоритмов машинного обучения, в основном на нашем созвездии Солнца на базе Opteron и некоторых небольших кластерах; это также довольно смущающие параллельные проблемы, поэтому основная роль многоядерности заключается в распределении вычислений по узлам без умножения использования памяти.

user88
источник
У нас здесь, в Гамбурге, всегда есть проблема, заключающаяся в том, что время ожидания академических центров обработки данных очень велико. это то же самое для вас?
Генрих
@ Генрих Я работаю для своего рода академического центра обработки данных, поэтому у меня нет таких проблем (-; Серьезно, в Варшаве предложение времени для научных процессоров превышает спрос, поэтому я считаю, что получить грант довольно легко. И Я думаю, что вы должны попробовать D-Grid или EGEE, мой опыт
Ой. Это интересно. Вы знаете, в каком бизнесе R используется в этих областях?
Генрих
2

Я использую снег и снегопад для параллелизации курса на кластерах HPC и CUDA для параллельной обработки точных данных. Я занимаюсь эпидемиологией и занимаюсь моделированием передачи заболеваний. Поэтому я использую оба.

Эндрю Редд
источник
Спасибо за вашу информацию. Что вы имеете в виду с распараллеливанием курса?
Генрих
Параллелизация курса может быть чем-то вроде независимого запуска изменения MCMC, то есть очень больших блоков, которые могут выполняться параллельно без синхронизации потоков. Примером мелкой детализации является вычисление вероятности, когда вычисления могут выполняться независимо от точек данных.
Эндрю Редд