Два общих подхода к выбору коррелированных переменных - это тесты значимости и перекрестная проверка. Какую проблему каждый пытается решить, и когда я предпочел бы одну над другой?
Два общих подхода к выбору коррелированных переменных - это тесты значимости и перекрестная проверка. Какую проблему каждый пытается решить, и когда я предпочел бы одну над другой?
Во-первых, давайте будем явными и поместим вопрос в контекст множественной линейной регрессии, где мы регрессируем переменную ответа на несколько различных переменных x 1 , … , x p (коррелированных или нет) с вектором параметров β = ( β 0 , β 1 , … , β p ) и функция регрессии f ( x 1 , … , x p ) = β 0 + β 1 x 1 +
которая может быть моделью среднего значения переменной отклика для данного наблюдения x 1 , … , x p .
Вопрос в том, как выбрать подмножество , чтобы оно было ненулевым, и, в частности, сравнение тестирования значимости с перекрестной проверкой .
Чтобы быть предельно ясным в отношении терминологии, проверка значимости является общей концепцией, которая проводится по-разному в разных контекстах. Это зависит, например, от выбора тестовой статистики. Перекрестная проверка действительно является алгоритмом для оценки ожидаемой ошибки обобщения , которая является важной общей концепцией и которая зависит от выбора функции потерь.
Ожидаются ошибка обобщения немного техническая формально определить, но на словах это ожидается потеря подобранной модели , когда используются для прогнозирования на независимом множество данных , где математическое ожидание по данным , используемых для оценки, а также независимых данных набор используется для прогноза.
Простое использование тестов значимости и пошаговой процедуры для выбора модели может привести вас к убеждению, что у вас очень сильная модель со значительными предикторами, а на самом деле это не так; Вы можете случайно получить сильные корреляции, и эти корреляции, по-видимому, могут быть улучшены при удалении других ненужных предикторов.
Процедура выбора, конечно, сохраняет только те переменные, которые имеют самые сильные корреляции с результатом, и, по мере продвижения пошаговой процедуры, вероятность совершения ошибки типа I становится больше, чем вы могли бы себе представить. Это связано с тем, что стандартные ошибки (и, следовательно, p-значения) не корректируются для учета того факта, что переменные не были выбраны для случайного включения в модель, и для выбора этого набора были проведены множественные проверки гипотез.
У Дэвида Фридмана есть симпатичная статья, в которой он демонстрирует эти пункты под названием « Заметка по проверке уравнений регрессии ». Аннотация:
Как вы упомянули, одним из возможных решений этой проблемы является использование варианта перекрестной проверки. Когда у меня нет веской экономической (моей области исследований) или статистической причины полагать, что моя модель, это мой предпочтительный подход к выбору подходящей модели и выполнению вывода.
Другие респонденты могут упомянуть, что пошаговые процедуры с использованием AIC или BIC асимптотически эквивалентны перекрестной проверке. Однако это работает только тогда, когда количество наблюдений относительно количества предикторов становится большим. В контексте наличия множества переменных относительно количества наблюдений (Фридман говорит, что 1 переменная на 10 или меньше наблюдений), выбор таким образом может демонстрировать плохие свойства, обсужденные выше.
В эпоху мощных компьютеров я не вижу причин, чтобы не использовать перекрестную проверку в качестве процедуры выбора модели вместо пошагового выбора.