Я читал бесчисленные посты на этом сайте, которые невероятно против использования пошагового выбора переменных, используя любой критерий, будь то на основе p-значений, AIC, BIC и т. Д.
Я понимаю, почему эти процедуры в целом достаточно плохи для выбора переменных. вероятно, знаменитый пост Ганга Ганга ясно показывает, почему; в конечном счете, мы проверяем гипотезу на том же наборе данных, который мы использовали, чтобы выдвинуть гипотезу, которая представляет собой дноуглубление данных. Кроме того, на значения p влияют такие величины, как коллинеарность и выбросы, которые сильно искажают результаты и т. Д.
Тем не менее, я изучал прогнозирование временных рядов совсем недавно и наткнулся на уважаемый учебник Хиндмана, в котором он упоминает здесь об использовании пошагового отбора для нахождения оптимального порядка моделей ARIMA, в частности. Фактически, в forecast
пакете в R известный алгоритм, известный как auto.arima
по умолчанию, использует пошаговый отбор (с AIC, а не с p-значениями). Он также критикует выбор функций на основе p-значения, который хорошо сочетается с несколькими публикациями на этом сайте.
В конечном счете, мы всегда должны каким-то образом пересекать валидацию в конце, если целью является разработка хороших моделей для прогнозирования / прогнозирования. Однако, безусловно, это является некоторым разногласием здесь, когда речь идет о самой процедуре для показателей оценки, отличных от p-значений.
У кого-нибудь есть мнения по поводу использования пошаговой АПК в этом контексте, но также и в целом вне этого контекста? Меня учили верить, что любой поэтапный отбор плох, но, честно говоря, auto.arima(stepwise = TRUE)
дает мне лучшие результаты из выборки, чем, auto.arima(stepwise = FALSE)
но, возможно, это просто совпадение.
Ответы:
Здесь есть несколько разных вопросов.
Итог: для данных среднего размера с разумным отношением сигнал / шум ступенчатый выбор на основе AIC действительно может дать оправданный прогноз модель; см. Murtaugh (2009) для примера.
Мурто, Пол А. «Эффективность нескольких методов переменного отбора, применяемых к реальным экологическим данным». Экология буквы 12, нет. 10 (2009): 1061-1068.
источник