Это современная методология регрессии?

33

Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование.

Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется, что создание моделей множественной регрессии, таких как (обобщенная) линейная регрессия, модели случайного леса, KNN, NN и SVM, и разумное объединение результатов в одну -производите каждый отдельный метод много раз.

Конечно, твердое понимание каждого метода является ключом, и интуитивная история может быть рассказана на основе модели линейной регрессии, но мне интересно, стало ли это современной методологией для достижения наилучших возможных результатов.

Maxareo
источник
В некоторых случаях нейронные сети четко определяют ритм «классического» способа регрессии. Например, во сколько шел дождь II . Но это определенно черный ящик.
YCR
@YCR Я согласен, это черный ящик. Пока я работал, я создал удивительную модель машинного обучения и попытался объяснить деловым людям или кому-то, кто не знаком с моделью, разговор обычно заканчивается так: я создал удивительную модель машинного обучения, она работает как волшебство, но Я не могу рассказать вам интересную историю.
Maxareo

Ответы:

41

Хорошо известно, по крайней мере, с конца 1960-х гг., Что если вы берете несколько прогнозов и усредняете их, то итоговый совокупный прогноз во многих случаях превзойдет отдельные прогнозы. Мешки, повышение и укладка основаны именно на этой идее. Так что да, если ваша цель - просто предсказание, то в большинстве случаев это лучшее, что вы можете сделать. Проблема в этом методе заключается в том, что это черный ящик, который возвращает результат, но не помогает вам понять и интерпретировать его. Очевидно, что он также требует больших вычислительных ресурсов, чем любой другой метод, так как вам приходится вычислять несколько прогнозов вместо одного.

† Это касается любых прогнозов в целом, но часто описывается в литературе по прогнозированию.


Винклер Р.Л. и Makridakis S. (1983). Сочетание прогнозов. JR Statis. Soc. А. 146 (2), 150-157.

Макридакис С. и Винклер Р.Л. (1983). Средние значения прогнозов: некоторые эмпирические результаты. Наука управления, 29 (9) 987-996.

Clemen, RT (1989). Объединение прогнозов: обзор и аннотированная библиография. Международный журнал прогнозирования, 5, 559-583.

Бейтс, JM и Грейнджер, CW (1969). Сочетание прогнозов. Или, 451-468.

Макридакис С. и Хибон М. (2000). Конкурс М3: итоги, выводы и последствия. Международный журнал прогнозирования, 16 (4), 451-476.

Рейд, диджей (1968). Объединение трех оценок валового внутреннего продукта. Economica, 431-444.

Makridakis S., Spiliotis E. и Assimakopoulos V. (2018). Соревнование M4: результаты, выводы, выводы и дальнейшие действия. Международный журнал прогнозирования.

Тим
источник
1
Ссылка в срезанной сноске, кажется, не работает для меня?
Серебряная рыба
@Silverfish спасибо, исправлено. Ссылка имела второстепенное значение, но, если она не работает, она бесполезна.
Тим
0

Артур (1994) проводит приятный эксперимент с короткой бумагой / мыслью, который хорошо известен в литературе по сложности.

Один из выводов заключается в том, что агенты не могут выбрать лучшие прогностические модели (даже если у них есть «лес») в неравновесных условиях. Например, если вопрос применяется к показателям фондового рынка, может быть применима настройка Артура (1994).

Гленн Магерман
источник