Онлайн, масштабируемые статистические методы

12

Это было вдохновлено эффективной линейной регрессией онлайн , которая мне показалась очень интересной. Существуют ли какие-либо тексты или ресурсы, посвященные крупномасштабным статистическим вычислениям, с помощью которых вычисления с наборами данных слишком велики, чтобы помещаться в оперативную память, и, возможно, слишком разнообразны для эффективной подвыборки. Например, можно ли разместить модели со смешанными эффектами в режиме онлайн? Кто-нибудь изучал последствия замены стандартных методов оптимизации 2-го порядка для MLE методами 1-го порядка типа SGD?

Grg S
источник
Я думаю, что ответ "да". Конечно, здесь есть проблема с определениями. То, что один человек считает «масштабным», иногда сильно отличается от того, что у другого. У меня сложилось впечатление, что, например, многие академические исследователи считают набор данных Netflix «крупномасштабным», в то время как во многих промышленных условиях его можно было бы считать «ничтожным». Что касается методов оценки, обычно с очень большими данными, вычислительная эффективность превосходит статистическую эффективность. Например, метод моментов во многих случаях будет выполнять (почти), а также MLE в этих настройках и может быть намного проще для вычисления.
кардинал
2
Вы также можете найти Семинар по алгоритмам для современных массивных наборов данных (MMDS). Он молодой, но привлекает довольно внушительный набор докладчиков на стыках статистики, техники и информатики, а также между научными кругами и промышленностью.
кардинал
Прошло всего несколько десятилетий, так как большинство наборов данных были слишком большими, чтобы поместиться в основной памяти, и выбор алгоритмов, используемых в ранних статистических программах, отражал это. У таких программ не было средств для моделей со смешанными эффектами.
OneStop
Вы можете рассчитать статистику для набора данных? скажем, например, сумма или средние элементы данных?
вероятностная

Ответы:

5

Вы можете заглянуть в проект Vowpal Wabbit от Джона Лэнгфорда из Yahoo! Исследование . Это онлайн ученик, который выполняет специализированный градиентный спуск по нескольким функциям потерь. VW имеет некоторые особенности убийцы:

  • Устанавливается в Ubuntu тривиально, с помощью «sudo apt-get install vowpal-wabbit».
  • Использует трюк хеширования для серьезно огромных пространств.
  • Особенности адаптивных весов.
  • Самое главное, что есть активный список рассылки и сообщество, подключающееся к проекту.

Книга Bianchi & Lugosi Prediction, Learning and Games дает прочную теоретическую основу для онлайн-обучения. Тяжелое чтение, но оно того стоит!

someben
источник