Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование.
Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется, что создание моделей множественной регрессии, таких как (обобщенная) линейная регрессия, модели случайного леса, KNN, NN и SVM, и разумное объединение результатов в одну -производите каждый отдельный метод много раз.
Конечно, твердое понимание каждого метода является ключом, и интуитивная история может быть рассказана на основе модели линейной регрессии, но мне интересно, стало ли это современной методологией для достижения наилучших возможных результатов.
Ответы:
Хорошо известно, по крайней мере, с конца 1960-х гг., Что если вы берете несколько прогнозов † и усредняете их, то итоговый совокупный прогноз во многих случаях превзойдет отдельные прогнозы. Мешки, повышение и укладка основаны именно на этой идее. Так что да, если ваша цель - просто предсказание, то в большинстве случаев это лучшее, что вы можете сделать. Проблема в этом методе заключается в том, что это черный ящик, который возвращает результат, но не помогает вам понять и интерпретировать его. Очевидно, что он также требует больших вычислительных ресурсов, чем любой другой метод, так как вам приходится вычислять несколько прогнозов вместо одного.
† Это касается любых прогнозов в целом, но часто описывается в литературе по прогнозированию.
Винклер Р.Л. и Makridakis S. (1983). Сочетание прогнозов. JR Statis. Soc. А. 146 (2), 150-157.
Макридакис С. и Винклер Р.Л. (1983). Средние значения прогнозов: некоторые эмпирические результаты. Наука управления, 29 (9) 987-996.
Clemen, RT (1989). Объединение прогнозов: обзор и аннотированная библиография. Международный журнал прогнозирования, 5, 559-583.
Бейтс, JM и Грейнджер, CW (1969). Сочетание прогнозов. Или, 451-468.
Макридакис С. и Хибон М. (2000). Конкурс М3: итоги, выводы и последствия. Международный журнал прогнозирования, 16 (4), 451-476.
Рейд, диджей (1968). Объединение трех оценок валового внутреннего продукта. Economica, 431-444.
Makridakis S., Spiliotis E. и Assimakopoulos V. (2018). Соревнование M4: результаты, выводы, выводы и дальнейшие действия. Международный журнал прогнозирования.
источник
Артур (1994) проводит приятный эксперимент с короткой бумагой / мыслью, который хорошо известен в литературе по сложности.
Один из выводов заключается в том, что агенты не могут выбрать лучшие прогностические модели (даже если у них есть «лес») в неравновесных условиях. Например, если вопрос применяется к показателям фондового рынка, может быть применима настройка Артура (1994).
источник