Обучение ансамблю: почему эффективна укладка моделей?

Недавно я заинтересовался укладкой моделей как формой обучения ансамблям. В частности, я немного поэкспериментировал с некоторыми игрушечными наборами данных для проблем регрессии. Я в основном реализовал отдельные регрессоры «уровня 0», сохранил выходные прогнозы каждого регрессора в качестве новой функции для «мета-регрессора», чтобы принять в качестве входных данных, и приспособил этот мета-регрессор к этим новым функциям (предсказания от уровня 0 регрессоров). Я был крайне удивлен, увидев даже скромные улучшения по сравнению с отдельными регрессорами при тестировании мета-регрессора с набором валидации.

Итак, вот мой вопрос: почему эффективна укладка модели? Интуитивно, я бы ожидал, что модель, выполняющая стекирование, будет работать плохо, так как, похоже, она имеет скудное представление функций по сравнению с каждой из моделей уровня 0. То есть, если я тренирую 3 регрессора уровня 0 в наборе данных с 20 функциями и использую прогнозы этих регрессоров уровня 0 в качестве входных данных для моего мета-регрессора, это означает, что у моего мета-регрессора есть только 3 возможности для изучения. Похоже, что в 20 исходных функциях, которые регрессоры уровня 0 имеют для обучения, имеется больше информации, чем 3 выходные функции, которые метарегрессор использует для обучения.

machine-learning ensemble stacking kylerthecreator
источник

Ответы:

Думайте об ансамбле как об эксплуатации центральной предельной теоремы.

Центральная предельная теорема говорит о том, что по мере увеличения размера выборки среднее значение выборки будет становиться все более точной оценкой фактического местоположения среднего значения совокупности (при условии, что это статистика, на которую вы смотрите), и дисперсия будет уменьшаться ,

Если у вас есть одна модель, и она выдает один прогноз для вашей зависимой переменной, этот прогноз, вероятно, будет в некоторой степени высоким или низким. Но если у вас есть 3, 5 или 10 разных моделей, которые дают разные прогнозы, для любого данного наблюдения высокие прогнозы по некоторым моделям будут иметь тенденцию компенсировать низкие ошибки по сравнению с некоторыми другими моделями, и чистый эффект будет сходимостью среднего (или другое сочетание) предсказаний к «истине». Не в каждом наблюдении, но в целом это тенденция. И поэтому, как правило, ансамбль превзойдет лучшую модель.

Даг Дам
источник