Объяснение того, что Нейт Сильвер сказал о лессе

23

В вопросе, который я задал недавно , мне сказали, что это большое «нет-нет», экстраполировать с лессом. Но в последней статье Нейта Сильвера на FiveThirtyEight.com он обсуждал использование лессов для прогнозирования выборов.

Он обсуждал специфику агрессивных и консервативных прогнозов с лессом, но мне любопытно, насколько правильно делать будущие прогнозы с лессом?

Я также заинтересован в этой дискуссии и в том, какие есть альтернативы, которые могут иметь аналогичные преимущества для лёсса.

a.powell
источник
Если ваша x-переменная - время, было бы опасно использовать loess для предсказания будущего (что будет за пределами диапазона данных). Но это не значит, что вы не можете использовать лесс, чтобы делать прогнозы более широко.
Glen_b
@Glen_b из любопытства, что бы я мог «более широко» предсказать?
А.Пауэлл
7
Представьте себе нелинейную связь между долей людей, склонных голосовать за партию А, и уровнем безработицы (наряду с другими предикторами - например, последствиями для отдельных штатов). Далее представьте, что новые цифры безработицы стали доступны; в пределах диапазона значений, наблюдаемых в обучающем наборе, но не обязательно значения, представленного в этом наборе (например, уровень безработицы в прошлом составлял от 5 до 12%, и теперь у нас есть показатель 8,3%, прогноз - устойчивый). Тогда мы могли бы использовать лесс для прогнозирования доли голосов А, не выходя за пределы 5-12% безработицы.
Glen_b
1
@Glen_b Спасибо. Это прекрасная иллюстрация того, как его можно использовать для прогнозов.
А.Пауэлл

Ответы:

28

Проблема с низким или низким значением заключается в том, что он использует полиномиальную интерполяцию. В прогнозировании хорошо известно, что многочлены имеют ошибочное поведение в хвостах. При интерполяции кусочные полиномы 3-й степени обеспечивают превосходное и гибкое моделирование трендов, тогда как при экстраполяции за пределы диапазона наблюдаемых данных они взрываются. Если бы вы наблюдали более поздние данные во временных рядах, вам определенно нужно было бы включить еще одну точку останова в сплайны, чтобы получить хорошее соответствие.

Модели прогнозирования, тем не менее, хорошо изучены в других местах литературы. Процесс фильтрации, такой как фильтр Калмана и фильтр частиц, обеспечивает превосходные прогнозы. По сути, хорошей моделью прогноза будет что-либо, основанное на цепях Маркова, где время не рассматривается как параметр в модели, но для информирования прогнозов используются предыдущие состояния модели.

Adamo
источник