Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски эффективны?
machine-learning
data-mining
predictive-modeling
Роберт де Грааф
источник
источник
Ответы:
Для конкретной модели вы передаете ей данные, выбираете функции, выбираете гиперпараметры и так далее. По сравнению с реальностью он допускает три типа ошибок:
Ансамбли усредняют количество этих моделей. Смещение из-за смещения выборки не будет исправлено по очевидным причинам, оно может исправить некоторые смещения сложности модели, однако ошибки, которые допускаются, сильно различаются в разных моделях. Особенно слабокоррелированные модели допускают очень разные ошибки в этой области, некоторые модели хорошо работают в определенных частях вашего функционального пространства. Усредняя эти модели, вы значительно уменьшаете эту дисперсию. Вот почему ансамбли сияют.
источник
Выбранный ответ фантастический, но я хотел бы добавить две вещи:
источник
Ансамбли побеждают при прогнозировании по теоретическим и практическим причинам.
Существует фундаментальная теория оптимального прогнозирования, если мы имеем в виду прогнозирование следующего события в последовательности, основанной на знании предыдущих событий. Прогнозирование Solomonoff (Solomonoff 1964) доказуемо оптимально в нескольких смыслах, в том числе в том, что он «научится правильно прогнозировать любую вычисляемую последовательность только с абсолютным минимальным объемом данных». (Hutter, Legg & Vitanyi 2007) Предсказатель Solomonoff взвешивает все совместимые программы с существующими данными, в соответствии с колмогоровской сложностью программы и вероятностью, которую программа присваивает данным до настоящего времени, объединяя эпикурейскую («сохраняй все теории») и философию Оккама («предпочитай простые теории») в байесовской структуре.
Свойства оптимальности предсказания Соломонова объясняют надежные результаты, на которые вы ссылаетесь: усреднение по моделям, источникам или экспертам улучшает предсказания, а усредненные предсказания превосходят даже одного лучшего предиктора. Различные методы ансамбля, которые можно увидеть на практике, можно рассматривать как вычислимое приближение к предсказанию Соломонова, а некоторые, такие как MML (Wallace 2005), явно исследуют связи, хотя большинство этого не делает.
Уоллес (2005) отмечает, что предиктор Соломонова не является экономным - он содержит бесконечный пул моделей - но большая часть предсказательной силы неизбежно падает на относительно небольшой набор моделей. В некоторых областях единственная лучшая модель (или семейство почти неразличимых моделей) может составлять большую часть прогностической силы и превосходить общие ансамбли, но в сложных областях с небольшой теорией, скорее всего, ни одна семья не захватывает большую часть апостериорной вероятности, и поэтому усреднение по вероятным кандидатам должно улучшить прогнозы. Чтобы выиграть приз Netflix, команда Bellkor смешала более 450 моделей (Koren 2009).
Люди обычно ищут единственное хорошее объяснение: в «высокотехнологичных» областях, таких как физика, они работают хорошо. Действительно, если они отражают основную причинную динамику, они должны быть почти непобедимыми. Но там, где доступные теории не соответствуют явлениям (скажем, рекомендации фильмов или геополитика), отдельные модели будут неэффективными: все они неполные, поэтому ни одна не должна доминировать. Таким образом, в последнее время акцент делается на ансамблях (для машинного обучения) и «Мудрости толпы» (для экспертов), а также на успехе таких программ, как IARPA ACE и, в частности, проекта «Правосудие» (Tetlock & Gardiner 2015).
Ссылки
источник