Я новичок в этой вещи R, но не уверен, какую модель выбрать.
Я сделал пошаговую регрессию вперед, выбирая каждую переменную на основе самой низкой AIC. Я придумал 3 модели, в которых я не уверен, какая из них «лучшая».
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Я склонен перейти на модель № 3, потому что она имеет самый низкий AIC (я слышал, отрицательный в порядке), а значения p все еще довольно низки.
Я запустил 8 переменных в качестве предикторов Hatchling Mass и обнаружил, что эти три переменные являются лучшими предикторами.
Следующим шагом я выбрал модель 2, потому что, хотя AIC был немного больше, значения p были все меньше. Вы согласны, что это лучшее?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
Благодарность!
Ответы:
AIC - это критерий соответствия качества, который способствует уменьшению остаточной ошибки в модели, но штрафует за включение дополнительных предикторов и помогает избежать переобучения. Во втором наборе моделей модель 1 (модель с наименьшим значением AIC) может работать лучше всего, когда используется для прогнозирования за пределами вашего набора данных. Возможное объяснение того, почему добавление Var4 в модель 2 приводит к более низкой AIC, но более высоким значениям p, заключается в том, что Var4 несколько коррелирует с Var1, 2 и 3. Таким образом, интерпретация модели 2 проще.
источник
Просмотр отдельных значений p может вводить в заблуждение. Если у вас есть переменные, которые коллинеарны (имеют высокую корреляцию), вы получите большие значения p. Это не значит, что переменные бесполезны.
Как быстрое практическое правило, лучше выбрать модель с критериями AIC, чем смотреть на p-значения.
Одной из причин, по которой можно не выбирать модель с самым низким значением AIC, является то, что отношение вашей переменной к назначению данных велико.
Обратите внимание, что выбор модели и точность прогноза - это несколько разные проблемы. Если ваша цель - получить точные прогнозы, я бы рекомендовал провести перекрестную проверку вашей модели, разделив ваши данные в наборе для обучения и тестирования.
Статья о выборе переменных: стохастические пошаговые ансамбли для выбора переменных
источник
AIC мотивируется оценкой ошибки обобщения (как CP Мэллоу, BIC, ...). Если вы хотите модель для прогнозов, лучше использовать один из этих критериев. Если вы хотите, чтобы ваша модель объясняла явление, используйте p-значения.
Также смотрите здесь .
источник