Обработка больших наборов данных в R - руководства, лучшие практики и т. Д.

11

Я R noob, который должен выполнять различные виды анализа больших наборов данных в R. Поэтому, просматривая этот сайт и другие места, мне показалось, что здесь есть много эзотерических и менее известных проблем, таких как какой пакет использовать, когда, какие преобразования (не) применяются к данным и т. д.

Мне просто интересно, есть ли книга / учебник / руководство, которое демистифицирует все это и представляет информацию систематически? Я предпочитаю делать это, а не смотреть по сторонам и собирать информацию из разных источников в Интернете.

Заранее спасибо.

TeachMeR
источник
2
Это может быть началом: cran.r-project.org/web/views/HighPerformanceComputing.html
Роман Луштрик,
1
Это может помочь поделиться некоторыми примерами того, какой анализ вы хотите сделать и как выглядят ваши данные. Простая статистика как средство или сложные регрессии? 200 переменных на тысячу строк или 4 переменных и 20 миллионов строк?
PaulHurleyuk
1
Если у вас действительно «большие» наборы данных, вам, возможно, стоит взглянуть на реляционные базы данных. Отправной точкой для этого может быть руководство «Импорт / экспорт данных R», которое поставляется вместе с RNB. Руководство также доступно в разделе «Руководства» на веб-сайте R.
1
Во-первых, важный вопрос: что вы имеете в виду под большим и что вы хотите сделать?
Fomite

Ответы:

3

Вот несколько постов в блоге, которые я сделал на эту тему «Большие наборы данных с R.». Есть несколько пакетов, таких как ff и bigmemory, которые используют обмен файлами и распределение памяти. Несколько других пакетов используют подключение к базам данных, таким как sqldf, RMySQL и RSQLite.

R Ссылки для обработки больших данных

Логистическая регрессия больших данных в R с ODBC

IEORTools
источник