У меня есть несколько вопросов об АПК и надеюсь, что вы мне поможете. Я применил выбор модели (назад или вперед) на основе AIC на моих данных. И некоторые из выбранных переменных оказались с p-значениями> 0,05. Я знаю, что люди говорят, что мы должны выбирать модели на основе AIC вместо p-значения, поэтому кажется, что AIC и p-значение - это две концепции различий. Может кто-нибудь сказать мне, в чем разница? Насколько я понимаю, так это то, что:
Для обратного выбора с использованием AIC, предположим, у нас есть 3 переменные (var1, var2, var3) и AIC этой модели AIC *. Если исключение какой-либо из этих трех переменных не приведет к AIC, который значительно ниже, чем AIC * (с точки зрения распределения ch-квадрата с df = 1), то мы бы сказали, что эти три переменные являются окончательными результатами.
Значительное значение p для переменной (например, var1) в модели с тремя переменными означает, что стандартизированный размер эффекта этой переменной значительно отличается от 0 (согласно Вальду или t-критерию).
В чем принципиальная разница между этими двумя методами? Как мне это интерпретировать, если в моей лучшей модели есть переменные, имеющие незначительные p-значения (полученные через AIC)?
источник
Поэтому неудивительно, если вы сравните его с использованием некоторого меньшего значения среза для значений p, которое иногда включает переменные с более высокими значениями p, чем это значение.
источник
Обратите внимание, что ни p-значения, ни AIC не были предназначены для поэтапного выбора модели, фактически предположения, лежащие в основе обоих (но разные предположения), нарушаются после первого шага в ступенчатой регрессии. Как упомянул @PeterFlom, LASSO и / или LAR являются лучшими альтернативами, если вы чувствуете необходимость автоматического выбора модели. Эти методы вытягивают оценки, которые являются большими случайными (которые пошагово вознаграждают за случайность) назад к 0 и, таким образом, имеют тенденцию быть менее смещенными, чем пошаговые (и оставшееся смещение имеет тенденцию быть более консервативным).
Большая проблема с AIC, которую часто упускают из виду, заключается в размере разницы в значениях AIC. Общепринято видеть, что «чем ниже, тем лучше» и на этом останавливаться (а автоматизированные процедуры просто подчеркивают это). Если вы сравниваете две модели, и у них очень разные значения AIC, то есть явное предпочтение для модели с более низким AIC, но часто у нас будет 2 (или более) модели со значениями AIC, которые близки друг к другу, в в этом случае при использовании только модели с наименьшим значением AIC будет упущена ценная информация (и выводы о терминах, которые присутствуют в этой модели или нет, но отличаются от других аналогичных моделей, будут бессмысленными или хуже). Информация извне самих данных (например, насколько сложно / дорого это для сбора набора переменных-предикторов) может сделать модель с немного более высоким AIC более желательной для использования без особых потерь в качестве. Другой подход заключается в использовании средневзвешенного значения аналогичных моделей (это, вероятно, приведет к схожим окончательным прогнозам с такими штрафными методами, как регрессия гребня или лассо, но мыслительный процесс, ведущий к модели, может помочь в понимании).
источник
Мой опыт работы с AIC заключается в том, что если переменные кажутся несущественными, но все же присутствуют в модели с наименьшим AIC, то они становятся возможными препятствиями.
Я предлагаю вам проверить на путаницу. Удаление таких незначительных переменных должно изменить магнитоток некоторых оставшихся оценочных коэффициентов более чем на 25%.
источник
Я думаю, что лучший выбор модели - использование пакета MuMIn. Это будет шаг за шагом, и вам не нужно искать самые низкие значения AIC. Пример:
источник