Почему применение выбора модели с использованием AIC дает мне незначимые p-значения для переменных

14

У меня есть несколько вопросов об АПК и надеюсь, что вы мне поможете. Я применил выбор модели (назад или вперед) на основе AIC на моих данных. И некоторые из выбранных переменных оказались с p-значениями> 0,05. Я знаю, что люди говорят, что мы должны выбирать модели на основе AIC вместо p-значения, поэтому кажется, что AIC и p-значение - это две концепции различий. Может кто-нибудь сказать мне, в чем разница? Насколько я понимаю, так это то, что:

  1. Для обратного выбора с использованием AIC, предположим, у нас есть 3 переменные (var1, var2, var3) и AIC этой модели AIC *. Если исключение какой-либо из этих трех переменных не приведет к AIC, который значительно ниже, чем AIC * (с точки зрения распределения ch-квадрата с df = 1), то мы бы сказали, что эти три переменные являются окончательными результатами.

  2. Значительное значение p для переменной (например, var1) в модели с тремя переменными означает, что стандартизированный размер эффекта этой переменной значительно отличается от 0 (согласно Вальду или t-критерию).

В чем принципиальная разница между этими двумя методами? Как мне это интерпретировать, если в моей лучшей модели есть переменные, имеющие незначительные p-значения (полученные через AIC)?

tiantianchen
источник

Ответы:

13

AIC и его варианты ближе к вариациям в чем в значениях p каждого регрессора. Точнее, они являются наказуемыми версиями логарифмической вероятности.R2

Вы не хотите проверять различия AIC, используя хи-квадрат. Вы можете проверить различия логарифмической вероятности, используя хи-квадрат (если модели вложенные). Для AIC чем ниже, тем лучше (во всяком случае, в большинстве его реализаций). Никаких дополнительных настроек не требуется.

Вы действительно хотите избежать методов автоматического выбора модели, если можете. Если вы должны использовать один, попробуйте LASSO или LAR.

Питер Флом - Восстановить Монику
источник
2
Спасибо за ответ. Да ты прав. AIC не применяет какой-либо тест, вместо этого он дает простую оценку того, насколько хорошо модель соответствует образцу и можно ли сохранить модель также простой, добавляя логарифм правдоподобия -2 * с 2 * number_of_parameters. Может быть, это объясняет, почему переменные с незначимыми значениями p были сохранены в выбранной модели?
tiantianchen
Какую модель нам выбрать, если у нас есть две модели с почти одинаковым AIC, но в одной из них мы имеем более значимые термины, чем в другой?
Агус Камачо
Как хочешь.
Питер Флом - Восстановить Монику
11

χ12

Поэтому неудивительно, если вы сравните его с использованием некоторого меньшего значения среза для значений p, которое иногда включает переменные с более высокими значениями p, чем это значение.

Glen_b - Восстановить Монику
источник
Можете ли вы указать мне URL или ссылку для связи между AIC и p-значениями через Wal-хи-квадрат? Благодарю.
Мех
Это относительно легко показать, используя значение 2 в качестве критического значения, которое соответствует пороговому значению p, равному 15,73% (когда степень свободы теста равна 1, как в случае пошагового выбора с использованием линейной регрессии). модели и непрерывные переменные). Это может быть вычислено как 1-chi2cdf (2,1).
Джордж
@aginensky Не видел реальной ссылки, хотя связь прямая. Я полагаю, я могу погуглить один, держись.
Glen_b
@aginensky Lindsey, JK & Jones, B. (1998) Выбор среди обобщенных линейных моделей, применяемых к медицинским данным. Статистика в медицине , 17, 59-68. ... см. середину страницы 62. Было бы больше.
Glen_b
@ Glen_b - спасибо, я никогда раньше такого не видел.
Мех
9

Обратите внимание, что ни p-значения, ни AIC не были предназначены для поэтапного выбора модели, фактически предположения, лежащие в основе обоих (но разные предположения), нарушаются после первого шага в ступенчатой ​​регрессии. Как упомянул @PeterFlom, LASSO и / или LAR являются лучшими альтернативами, если вы чувствуете необходимость автоматического выбора модели. Эти методы вытягивают оценки, которые являются большими случайными (которые пошагово вознаграждают за случайность) назад к 0 и, таким образом, имеют тенденцию быть менее смещенными, чем пошаговые (и оставшееся смещение имеет тенденцию быть более консервативным).

Большая проблема с AIC, которую часто упускают из виду, заключается в размере разницы в значениях AIC. Общепринято видеть, что «чем ниже, тем лучше» и на этом останавливаться (а автоматизированные процедуры просто подчеркивают это). Если вы сравниваете две модели, и у них очень разные значения AIC, то есть явное предпочтение для модели с более низким AIC, но часто у нас будет 2 (или более) модели со значениями AIC, которые близки друг к другу, в в этом случае при использовании только модели с наименьшим значением AIC будет упущена ценная информация (и выводы о терминах, которые присутствуют в этой модели или нет, но отличаются от других аналогичных моделей, будут бессмысленными или хуже). Информация извне самих данных (например, насколько сложно / дорого это для сбора набора переменных-предикторов) может сделать модель с немного более высоким AIC более желательной для использования без особых потерь в качестве. Другой подход заключается в использовании средневзвешенного значения аналогичных моделей (это, вероятно, приведет к схожим окончательным прогнозам с такими штрафными методами, как регрессия гребня или лассо, но мыслительный процесс, ведущий к модели, может помочь в понимании).

Грег Сноу
источник
Спасибо @GregSnow за ваш ответ. Могу ли я спросить, каковы (разные) допущения для выбора модели на основе значения p и AIC? Будет ли применение двунаправленного (вперед / назад) или попытка полного подмножества более или менее решить проблему нахождения локальной оптимальной модели упрощения с использованием прямого или обратного пошагового выбора? (хотя проблема перенастройки всегда существует в методе AIC / p-value, и LASSO и / или LAR - лучший вариант)
tiantianchen
Поскольку ни p-значения, ни AIC не были предназначены для выбора модели, у них нет допущений для выбора модели. Оба были разработаны для того, чтобы провести одно сравнение, подумать о том, сколько сравнений происходит в ступенчатой ​​регрессии, вы действительно думаете, что «лучший» шаг делается каждый раз?
Грег Сноу,
@GregSnow. Моя справка по изучению AIC была такой: stat.cmu.edu/~larry/=stat705/Lecture16.pdf, которая, кажется, ставит AIC в бизнес выбора моделей. Кроме того, когда я видел AIC, используемый в моделях арима временных рядов, он всегда использовался для выбора модели.
Мех
@aginensky, да, AIC (и другие) используются для выбора модели. Это не означает, что AIC был задуман для выбора модели, или что он даже подходит для выбора модели, или что автоматический выбор модели отвечает на значимый вопрос. Раньше я использовал отвертку как молоток, это не значит, что это хорошая идея в целом.
Грег Сноу,
«В этом документе описывается, как проблема выбора статистической модели может быть систематически решена с использованием информационных критериев (AIC), введенных автором в 1971 году» из Akaike, «Новый взгляд на идентификацию статистической модели». Таким образом, даже если AIC - это молоток, используемый для решения проблемы, которую лучше всего решить с помощью отвертки, разработчик этого молотка считал, что молоток был правильным способом решения этой проблемы. Правильно или неправильно, AIC был разработан для выбора модели. Я был бы рад видеть другой взгляд на AIC. Не стесняйтесь ответить на это, но я закончил.
Мех
1

Мой опыт работы с AIC заключается в том, что если переменные кажутся несущественными, но все же присутствуют в модели с наименьшим AIC, то они становятся возможными препятствиями.

Я предлагаю вам проверить на путаницу. Удаление таких незначительных переменных должно изменить магнитоток некоторых оставшихся оценочных коэффициентов более чем на 25%.

Adiaba
источник
Пожалуйста, объясните, как ОП "может проверить на смешение".
Джим
0

Я думаю, что лучший выбор модели - использование пакета MuMIn. Это будет шаг за шагом, и вам не нужно искать самые низкие значения AIC. Пример:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]
Рави Мохан Тивари
источник
2
Сказать, какой код вы могли бы использовать, на самом деле не отвечает на вопрос, если только вы не можете объяснить, как это решает вопрос статистически. В любом случае в данном вопросе нет ничего конкретного для конкретного программного обеспечения.
Ник Кокс,