Вы не можете сравнить две модели, так как они не моделируют одну и ту же переменную (как вы правильно узнаете себя). Тем не менее AIC должен работать при сравнении как вложенных, так и не вложенных моделей.
Просто напоминание, прежде чем мы продолжим: логарифмическая вероятность Гаусса определяется
журнал( L ( θ ) ) = - | D |2журнал( 2 π) - 12журнал( | К| )- 12( х - μ )TК- 1( х - μ ) ,
- ковариационная структура вашей модели, | D | количество точек в ваших наборах данных, μ средний ответ и x ваша зависимая переменная.К| D |μИкс
В частности, AIC рассчитывается так, чтобы он равнялся , где k - число фиксированных эффектов в вашей модели, а L - функция вероятности [1]. Он практически сравнивает компромисс между дисперсией ( 2 k ) и смещением ( 2 log ( L ) ) в ваших предположениях моделирования. Таким образом, в вашем случае он будет сравнивать две разные логарифмические структуры правдоподобия, когда дело доходит до смещения. Это потому, что когда вы вычисляете свою логарифмическую вероятность, вы фактически смотрите на два термина: подходящий термин, обозначаемый - 12 k - 2 бревна(L)kL2 к2 журнала( L ), и штраф за сложность, обозначаемый как-1- 12( х - μ )TК- 1( х - μ ). Таким образом, вы видите, что ваш подходящий термин для двух моделей совершенно различен; в первом случае вы сравниваете остатки из необработанных данных, а в другом случае - остатки зарегистрированных данных.- 12журнал( | К| )
Помимо Wikipedia, AIC также определен, чтобы приравнять: [3]; эта форма делает еще более очевидным, почему разные модели с разными зависимыми переменными не сравнимы. RSS-это два случая просто несопоставимы между ними.| D | журнал( R SS| D |) +2к
Оригинальная статья Акаике [4] на самом деле довольно трудна для понимания (я думаю). Он основан на дивергенции KL (грубо говоря, различие между двумя распределениями) и доказывает, как вы можете аппроксимировать неизвестное истинное распределение ваших данных и сравнивать его с распределением данных, которое предполагает ваша модель. Вот почему «чем меньше оценка AIC, тем лучше» ; вы ближе к приблизительному истинному распределению ваших данных.
Итак, чтобы свести воедино все, что нужно помнить при использовании AIC, это три [2,5]:
Вы не можете использовать его для сравнения моделей разных наборов данных.
Вы должны использовать одинаковые переменные ответа для всех моделей-кандидатов.
Вы должны иметь , так как в противном случае вы не получите хорошую асимптотическую последовательность.| D | > > К
Извините, что сообщаю вам плохие новости, но использование AIC, чтобы показать, что вы выбираете одну зависимую переменную вместо другой, не является статистически обоснованной вещью. Проверьте распределение ваших остатков в обеих моделях. Если зарегистрированный случай данных имеет нормально распределенные остатки, а случай необработанных данных - нет, у вас есть все обоснование, которое вам может понадобиться. Вы также можете проверить, соответствуют ли ваши необработанные данные логнормальным нормам, что также может быть достаточным оправданием.
Для строгих математических предположений игра KL расхождение и теория информации ...
Ах, и некоторые ссылки:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Информационный критерий Акаике, Шухуа Ху (презентация, стр. 17-18)
- Прикладной многомерный статистический анализ, Johnson & Wichern, 6th Ed. (с. 386-387)
- Новый взгляд на идентификацию статистической модели, Х. Акаике, IEEE Транзакции по автоматическому управлению 19 (6): 716–723 (1974)
- Урок выбора модели № 1: Информационный критерий Акаике, Д. Шмидт и Э. Макалич, (презентация с.39)
uu0
uu0
AIC (uu0)+2*sum (log (usili))
AIC (uu1)
источник
AIC()
вами функция не учитывает это.Этот отрывок из Akaike 1978 содержит цитату в поддержку решения @probabilityislogic.
Akaike, H. 1978. О вероятности модели временных рядов. Журнал Королевского статистического общества. Серия D (Статистик) 27: 217-235.
источник