Почему p-значения вводят в заблуждение после пошагового выбора?

28

Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю. Я слышал, что следует рассматривать все переменные, оставшиеся в модели, с истинным коэффициентом регрессии, отличным от нуля. Может кто-нибудь объяснить мне, почему? Спасибо.

Джон М
источник
1
В теоретическом / англ. Wordpress.com/2018/05/03/… я показываю код R, демонстрирующий инфляцию типа I после выбора AIC. Обратите внимание, что не имеет значения, является ли он пошаговым или глобальным, дело в том, что выбор модели - это в основном многократное тестирование.
Флориан Хартиг

Ответы:

33

после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю.

Действительно, p-значения представляют вероятность увидеть статистику теста, по крайней мере, такую ​​же экстремальную, как и та, которая у вас есть, когда нулевая гипотеза верна. Если ЧАС0 истинно, значение p должно иметь равномерное распределение.

Но после поэтапного выбора (или даже после множества других подходов к выбору модели) p-значения тех членов, которые остаются в модели, не обладают этим свойством, даже когда мы знаем, что нулевая гипотеза верна.

Это происходит потому, что мы выбираем переменные, которые имеют или имеют тенденцию иметь небольшие значения p (в зависимости от конкретных критериев, которые мы использовали). Это означает, что p-значения переменных, оставленных в модели, обычно намного меньше, чем они были бы, если бы мы подгоняли одну модель. Обратите внимание, что выбор будет в среднем выбирать модели, которые кажутся подходящими даже лучше, чем истинная модель, если класс моделей включает в себя истинную модель или если класс моделей достаточно гибок, чтобы близко приближаться к истинной модели.

[Кроме того, и по существу по той же причине оставшиеся коэффициенты смещены от нуля, а их стандартные ошибки смещены на низкое значение; это, в свою очередь, также влияет на доверительные интервалы и прогнозы - например, наши прогнозы будут слишком узкими.]

Чтобы увидеть эти эффекты, мы можем взять множественную регрессию, где некоторые коэффициенты равны 0, а некоторые нет, выполнить пошаговую процедуру, а затем для тех моделей, которые содержат переменные с нулевыми коэффициентами, посмотреть на получаемые p-значения.

(В той же симуляции вы можете посмотреть на оценки и стандартные отклонения для коэффициентов и обнаружить, что они также влияют на ненулевые коэффициенты.)

Короче говоря, неуместно считать обычные p-значения значимыми.

Я слышал, что нужно рассматривать все переменные, оставшиеся в модели, как значимые.

Относительно того, должны ли все значения в модели после пошагового «считаться значимыми», я не уверен, насколько это полезный способ взглянуть на это. Что значит «значимость»?


Вот результат запуска R stepAICс настройками по умолчанию на 1000 смоделированных выборках с n = 100 и десятью переменными-кандидатами (ни одна из которых не связана с ответом). В каждом случае подсчитывалось количество слагаемых в модели:

введите описание изображения здесь

Только 15,5% времени была выбрана правильная модель; в остальное время модель включала термины, которые не отличались от нуля. Если на самом деле возможно, что в наборе переменных-кандидатов есть переменные с нулевым коэффициентом, у нас, вероятно, будет несколько членов, где истинный коэффициент равен нулю в нашей модели. В результате не ясно, что это хорошая идея, чтобы рассматривать их как ненулевые.

Glen_b - Восстановить Монику
источник
С предложением «Я слышал, что все переменные, оставшиеся в модели, следует считать значимыми», я имел в виду: «Я слышал, что все переменные, оставшиеся в модели, следует рассматривать как имеющие истинный коэффициент регрессии, отличный от нуля»
Джон М
Хорошо; Я добавил результаты симуляции, которая говорит об этом.
Glen_b
10
Кзнак равно33910К
7
@whuber, действительно, видя, какое влияние окажет Бонферрони (на различные аспекты проблемы), я сразу же склоняюсь к завершению вышеупомянутой симуляции, но это не то, что люди на самом деле стремятся сделать поэтапно, поэтому я не обращал внимания это здесь. Я был бы рад услышать, как вы обсуждаете методы выбора моделей. Я ожидаю, что я узнаю совсем немного.
Glen_b
@Glen_b: (цитата из вашего ответа) Это означает, что p-значения переменных, оставленных в модели, как правило, намного меньше, чем они были бы, если бы мы подгоняли одну модель, даже если одна подходящая нам модель оказывается тот, который генерировал данные, является ли истинная модель нулевой или нет ". Можете ли вы объяснить немного выделенную часть? Как может случиться, что p-значения будут меньше в модели, которая имеет ту же спецификацию, что и процесс генерирования данных (истинная модель)?
Шани
8

TFп-1,N-п-1FQ-1,N-Q-1Q<пF

Фрэнк Харрелл
источник