Из того, что я понимаю, выбор переменных на основе p-значений (по крайней мере, в контексте регрессии) является в высшей степени ошибочным. Похоже, что выбор переменных на основе AIC (или аналогичных) также считается ошибочным по некоторым причинам, хотя это кажется немного неясным (например, см. Мой вопрос и некоторые ссылки по этой теме здесь: что именно такое «пошаговый выбор модели»? ).
Но допустим, вы выбрали один из этих двух методов, чтобы выбрать лучший набор предикторов в вашей модели.
Бернхем и Андерсон 2002 (Выбор модели и многомодельный вывод: практический информационно-теоретический подход, стр. 83) утверждают, что не следует смешивать выбор переменных на основе AIC с выбором на основе проверки гипотез : «Тесты нулевых гипотез и теоретико-информационные подходы должны не должны использоваться вместе; это очень разные парадигмы анализа ".
С другой стороны, Zuur et al. 2009 (Модели со смешанными эффектами и расширениями в экологии с R, стр. 541), по-видимому, выступают за использование AIC, чтобы сначала найти оптимальную модель, а затем выполнить «точную настройку» с помощью проверки гипотез : «Недостатком является то, что AIC может быть консервативным и вам, возможно, придется применить некоторую тонкую настройку (с использованием процедур проверки гипотез из первого подхода), когда AIC выберет оптимальную модель ».
Вы можете видеть, как это оставляет читателя обеих книг в замешательстве относительно того, какой подход следовать.
1) Это просто разные «лагеря» статистического мышления и предмет разногласий среди статистиков? Является ли один из этих подходов просто «устаревшим» сейчас, но был ли он уместным на момент написания? Или это просто неправильно с самого начала?
2) Будет ли сценарий, при котором этот подход будет уместным? Например, я родом из биологического прошлого, где я часто пытаюсь определить, какие переменные влияют или влияют на мой ответ, если таковые имеются. У меня часто есть несколько возможных объясняющих переменных, и я пытаюсь найти, которые являются «важными» (в относительном выражении). Кроме того, обратите внимание, что набор переменных-предикторов-кандидатов уже сокращен до тех, которые, как считается, имеют некоторую биологическую значимость, но это может по-прежнему включать 5-20 кандидатов-предикторов.
Ответы:
Краткий ответ.
Подход к выбору или настройке модели, основанной на данных , с последующим использованием стандартных логических методов для выбранной / настроенной модели (как Zuur et al. , И многих других уважаемых экологов, таких как Кроули), всегда будет давать чрезмерно оптимистичные результаты : чрезмерно узкое доверие интервалы (плохое покрытие), слишком малые значения p (высокая ошибка типа I). Это потому, что стандартные логические методы предполагают, что модель указана априори ; они не принимают во внимание процесс настройки модели.
Вот почему такие исследователи, как Фрэнк Харрелл (« Стратегии регрессионного моделирования» ), категорически не одобряют методы выбора, основанные на данных, такие как ступенчатая регрессия, и предупреждают, что необходимо уменьшить сложность модели («уменьшение размерности», например, вычисление PCA переменных-предикторов). и выбор первых нескольких осей PCA в качестве предикторов), рассматривая только переменные предиктора.
Если вы заинтересованы только в поиске наилучшей прогностической модели (и не заинтересованы в какой-либо надежной оценке неопределенности вашего прогноза, которая попадает в область логического вывода!), То настройка модели, управляемой данными, подойдет (хотя пошаговый выбор редко является лучшим из доступных вариантов); Алгоритмы машинного обучения / статистического обучения делают много настроек, чтобы попытаться получить лучшую прогностическую модель. Ошибка «test» или «out-of-sample» должна быть оценена на отдельной сохраненной выборке, или любые методы настройки должны быть встроены в процедуру перекрестной проверки.
Похоже, произошла историческая эволюция мнений по этой теме; Многие классические статистические учебники, особенно те, которые посвящены регрессии, представляют поэтапные подходы, за которыми следуют стандартные логические процедуры без учета последствий выбора модели [цитата нужна ...]
Есть много способов количественно оценить важность переменных, и не все попадают в ловушку выбора переменной.
источник
Я родом из биологического происхождения и являюсь наемным биостатистом, работающим в университетской больнице. Я много читал об этом, особенно в последнее время, в том числе особенно мнения Харрелла о WWW и его книгу «Стратегии регрессионного моделирования». Я больше не цитирую его, а, исходя из опыта: он тесно связан с полем, я думаю, что это первый уровень, который необходимо учитывать. Вторым уровнем было бы получить хороший рациональный подход, означающий, что ваши предикторы должны иметь ключевое значение для выражения того, что вы хотите предсказать, с помощью научного опыта. Третий - учесть взаимодействия, что очень важно и может быть решено с помощью статистического подхода или понимания. Только 4-й выбран метод, в моем случае с данными больницы, который довольно часто имеет около х * 10 ^ 3 точек данных и х * 10 ^ 1 наблюдений, например,
источник