AIC или p-значение: какой выбрать для выбора модели?

22

Я новичок в этой вещи R, но не уверен, какую модель выбрать.

  1. Я сделал пошаговую регрессию вперед, выбирая каждую переменную на основе самой низкой AIC. Я придумал 3 модели, в которых я не уверен, какая из них «лучшая».

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Я склонен перейти на модель № 3, потому что она имеет самый низкий AIC (я слышал, отрицательный в порядке), а значения p все еще довольно низки.

    Я запустил 8 переменных в качестве предикторов Hatchling Mass и обнаружил, что эти три переменные являются лучшими предикторами.

  2. Следующим шагом я выбрал модель 2, потому что, хотя AIC был немного больше, значения p были все меньше. Вы согласны, что это лучшее?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Благодарность!

MEL
источник
Не могли бы вы рассказать нам разницу между (1) и (2)? Очевидно, что-то изменилось, потому что Модель 3 в (1) и Модель 2 в (2) номинально идентичны, но значения р и AIC различаются.
whuber
2
Этот вопрос был повторно размещен два раза, что означает, что не только мы должны закрыть их, но также и связанные с ними ответы, которые уже были предоставлены вам. Не могли бы вы зарегистрировать свой аккаунт (см. Часто задаваемые вопросы ) и обратить внимание на политику публикации StackExchange в будущем? Благодарю.
ЧЛ
@whuber, боюсь, я не совсем понял твой вопрос. Это, вероятно, мое отсутствие статистического понимания. Но попытаться уточнить. Модель 1 имеет 4 переменные, Модель 2 имеет 3 переменные, а Модель 3 имеет 2 переменные. Переменные находятся в одинаковом порядке в каждой модели (имеется в виду переменная one = temp в каждой модели). Я думаю, что @GaBorgulya и @djma отлично ответили на мой вопрос. Переменная 4 IS соотносится с переменной 3. AH-HA! Имеет смысл. спасибо oodles!
MEL
Я преобразовал ваш ответ в приведенный выше комментарий. Если вам кажется, что один из текущих ответов помог вам или ответил на ваш вопрос, не забудьте принять его, как любезно напоминает @richiemorrisroe. Кстати, приятно видеть, что вы зарегистрировали свой аккаунт.
хл

Ответы:

23

AIC - это критерий соответствия качества, который способствует уменьшению остаточной ошибки в модели, но штрафует за включение дополнительных предикторов и помогает избежать переобучения. Во втором наборе моделей модель 1 (модель с наименьшим значением AIC) может работать лучше всего, когда используется для прогнозирования за пределами вашего набора данных. Возможное объяснение того, почему добавление Var4 в модель 2 приводит к более низкой AIC, но более высоким значениям p, заключается в том, что Var4 несколько коррелирует с Var1, 2 и 3. Таким образом, интерпретация модели 2 проще.

GaBorgulya
источник
31

Просмотр отдельных значений p может вводить в заблуждение. Если у вас есть переменные, которые коллинеарны (имеют высокую корреляцию), вы получите большие значения p. Это не значит, что переменные бесполезны.

Как быстрое практическое правило, лучше выбрать модель с критериями AIC, чем смотреть на p-значения.

Одной из причин, по которой можно не выбирать модель с самым низким значением AIC, является то, что отношение вашей переменной к назначению данных велико.

Обратите внимание, что выбор модели и точность прогноза - это несколько разные проблемы. Если ваша цель - получить точные прогнозы, я бы рекомендовал провести перекрестную проверку вашей модели, разделив ваши данные в наборе для обучения и тестирования.

Статья о выборе переменных: стохастические пошаговые ансамбли для выбора переменных

Djma
источник
4
Если ваша цель - точность прогноза, вы хотите использовать AIC (так как он минимизирует ожидаемое расхождение KL между подобранной моделью и истинностью). Если вам нужна последовательная процедура выбора модели (фиксированное p, растущее n), вы можете использовать, скажем, BIC. Использование р-значений в ступенчатой ​​регрессии для выбора гипотез определенно не рекомендуется.
Эмакалич
8
0,154|T|>журнал(N)
-3

AIC мотивируется оценкой ошибки обобщения (как CP Мэллоу, BIC, ...). Если вы хотите модель для прогнозов, лучше использовать один из этих критериев. Если вы хотите, чтобы ваша модель объясняла явление, используйте p-значения.

Также смотрите здесь .

JohnRos
источник