Значение «количества параметров» в AIC

21

При вычислении AIC,

AIC=2k2lnL

k означает «количество параметров». Но что считается параметром? Так, например, в модели

y=ax+b

A и b всегда считаются параметрами? Что если мне не важно значение перехвата, могу ли я его игнорировать или он все еще считается?

Что, если

y=af(c,x)+b

где - функция от c и x, теперь я считаю 3 параметра?f

Sideshow Bob
источник
9
Это хороший вопрос, потому что есть одна тонкость: - это количество идентифицируемых параметров, которые нужно оценить. Например, хотя в регрессионной модели записано пять параметров, тем не менее . (Эта модель эквивалентна с и \ alpha_2 = \ beta_2 + \ beta_3 , для которых явно нужны только четыре параметра .)kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) Y N ( β 0 + α 1 X 1 + α 2 X 2 , σ 2 ) α 1 = β 1 + β 3 α 2 = β 2 + β 3k=4YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber
3
Строго говоря, вы учитываете все идентифицируемые свободные параметры - средние параметры, параметры формы и масштаба, что угодно (и это имеет значение для AIC C ), но для AIC не имеет значения, если вы опускаете параметры, общие для сравниваемых моделей. Так, например, в регрессии вы должны посчитать параметр дисперсии. Следовательно, по моим подсчетам, все ваши параметры в вашем вопросе - один короткий - но если во всех моделях точно один, то не повредит отбросить их для AIC. R явно подсчитывает параметр дисперсии при вычислении AIC в регрессионных моделях.
Glen_b
@whuber Почему этот отличный комментарий не опубликован в качестве ответа? :)
Алексис
Спасибо, @Alexis. Я разместил эту мысль в качестве комментария, потому что идея адекватно освещена в ответе П Шнелла: я хотел лишь подчеркнуть это немного больше.
whuber

Ответы:

17

Как упомянуто мугеном, представляет количество оцененных параметров . Другими словами, это количество дополнительных количеств, которое вам нужно знать, чтобы полностью указать модель. В простой модели линейной регрессии вы можете оценить , или оба. Какое бы количество вы не оценили, вы должны исправить. Нет «игнорирования» параметра в том смысле, что вы его не знаете и не заботитесь об этом. Наиболее распространенная модель, которая не оценивает как и - это модель без перехвата, где мы фиксируем . Это будет иметь 1 параметр. Вы также можете легко исправить илиy = a x + b a b a b b = 0 a = 2 b = 1 σk

y=ax+b
ababb=0a=2b=1Если у вас есть основания полагать, что это отражает реальность. (Замечательно: также является параметром в простой линейной регрессии, но поскольку он есть в каждой модели, его можно отбросить, не влияя на сравнение AIC.)σ

Если ваша модель имеет вид число параметров зависит от того, фиксируете ли вы какое-либо из этих значений и от формы . Например, если мы хотим оценить и знать, что , то когда мы выписываем модель, мы имеем с тремя неизвестными параметрами. Однако, если , то у нас есть модель которая на самом деле имеет только два параметра: и .f a , b , c f ( c , x ) = x c

y=af(c,x)+b
fa,b,cf(c,x)=xcf ( c , x ) = c x y = a c x + b a с б
y=axc+b
f(c,x)=cx
y=acx+b
acb

Крайне важно, чтобы было семейством функций, индексированных . Если все, что вы знаете, это то, что непрерывна и зависит от и , то вам не повезло, потому что существует бесконечно много непрерывных функций.c f ( c , x ) c xf(c,x)cf(c,x)cx

П Шнелл
источник
2
(+1) Возможно, стоит упомянуть, что во всем «оценка» означает «оценка по максимальному правдоподобию».
Scortchi - Восстановить Монику
Это действительно имеет значение? На самом деле мой - это огромная симуляция, которую невозможно разделить аналитически, и для ее вычисления требуются часы. Я пробую это примерно с 20 различными значениями потому что это все, на что у нас есть время, и я придерживаюсь значения которое дает лучшее в конце дня. Таким образом, в некотором смысле я оценил как можно лучше, хотя и не так, как в регрессии. Конечно, это все еще считается параметром для AIC, хотя? f(c,x)с г 2 грccr2c
Сайд-шоу Боб
2
@SideshowBob: Да. Когда вы сравниваете две модели, разница в максимальных логарифмических правдоподобиях является искаженной оценкой разницы в ожидаемой потере информации Kullback-Leibler, а штрафной член в AIC приблизительно исправляет это смещение.
Scortchi - Восстановить Монику
1
@SideshowBob: я должен упомянуть, что есть модификации AIC для обобщенных уравнений оценки и тому подобное - они используют максимизированное квази-правдоподобие и довольно сложный штрафной член.
Scortchi - Восстановить Монику
4

Для любой статистической модели значение AIC равно где k - количество параметров в модели, а L - максимальное значение функции правдоподобия для модели.AIC=2k2ln(L)

(см. здесь )

Как вы можете видеть, представляет количество параметров, оцененных в каждой модели. Если ваша модель включает в себя перехват (то есть, если вы вычисляете точечную оценку, дисперсию и доверительный интервал для перехвата), то он считается параметром. С другой стороны, если вы вычисляете модель без перехвата, это не считается.k

Помните, что AIC не только суммирует качество соответствия, но также учитывает сложность модели. Вот почему существует , чтобы штрафовать модели с большим количеством параметров.k

Я не чувствую себя достаточно компетентным, чтобы ответить на ваш второй вопрос, я оставлю это другому члену сообщества.

Mugen
источник
1
Означает ли это, что если я преобразовал Бокса-Кокса как x, так и y, то от каждого из этих преобразований также считается параметром? λ
Сайд-шоу Боб
1
Да, конечно.
PA6OTA
1

Во-первых, для тех, кто может быть не знаком с AIC: информационный критерий Акаике (AIC) - это простая метрика, предназначенная для сравнения «качества» моделей.

Согласно AIC, при попытке выбора между двумя разными моделями, применяемыми к одним и тем же входным и ответным переменным , т. Е. Моделями, разработанными для решения одной и той же проблемы, модель с более низким AIC считается «лучшей».

В формуле AIC относится к числу переменных (входных объектов или столбцов) в модели. Чем сложнее модель (чем больше переменных требуется для получения оценки или прогноза), тем выше AIC. Это гарантирует, что среди двух моделей с одинаковой предсказательной силой или точностью победит более простая модель. Это форма бритвы Оккама.k

Таким образом, простой ответ на последний вопрос: если cin является константой , которая не изменяется с наблюдениями, то она не должна быть включена в .kf(c,x)k

arielf
источник