Почему критерий отношения правдоподобия распределяется по критерию хи-квадрат?

34

Почему тестовая статистика теста отношения правдоподобия распределяется по хи-квадрату?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Доктор Библброкс
источник
3
Это помогает ?
Ник Сабби
14
Спасибо за ссылку. Вот один из меня: stats.stackexchange.com/faq#etiquette
доктор Библброкс
5
Обратите внимание на «Принесите свое чувство юмора» там. Я не собирался быть грубым, но ответ на этот вопрос был бы довольно утомительным и состоял, в основном, из содержания этой статьи (или некоторых из лучших учебников по статистике). Если вы изложите свою точную проблему с объяснением в одном из них, я буду рад вам помочь.
Ник Сабб
2
Прямая ссылка на оригинальную газету Уилкса без платного доступа.
ayorgo

Ответы:

23

Как уже упоминалось @Nick, это является следствием теоремы Уилкса . Но обратите внимание, что тестовая статистика асимптотически -распределена, а не χ 2 -распределена.χ2χ2

Я очень впечатлен этой теоремой, потому что она имеет место в очень широком контексте. Рассмотрим статистическую модель с вероятностью где y - вектор наблюдений n независимых реплицированных наблюдений из распределения с параметром θ, принадлежащего подмногообразию B 1 в R d с размерностью dim ( B 1 ) = s . Пусть B 0B 1 - подмногообразие с размерностью dim ( B 0l(θy)ynθB1Rddim(B1)=sB0B1 . Представьте, что вы заинтересованы в тестировании H 0 : { θ B 0 } .dim(B0)=mH0:{θB0}

Отношение правдоподобия равно Определитьотклонениеd(y)=2log(lr(y)). ТогдаУилкса теоремаутверждаетчто при обычных предположениях регулярности,d(у)асимптотическийχ2-distributed сs-мстепени свободы приH0верен.

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Это доказано в оригинальной статье Вилка, упомянутой @Nick. Я думаю, что этот документ не так легко прочитать. Уилкс опубликовал книгу позже, возможно, с самым простым изложением своей теоремы. Краткое эвристическое доказательство дано в превосходной книге Уильямса .

Стефан Лоран
источник
3
Грустно, что эта теорема не упоминается на странице википедии, посвященной Сэмюэлю С. Уилксу
Стефан Лоран
5
О, давай Стефан. Это Википедия, вы можете редактировать и улучшать ее!
StasK
1
@StasK Я знаю это, но я никогда не пробовал. И я уже провожу слишком много времени в своей жизни со статистикой и математикой;)
Стефан Лоран
Есть ли интуиция, почему 2 находится перед логом в определении отклонения?
user56834
@ Programmer2134 Он получен из разложения Тейлора второго порядка.
Фрэнк Вел
25

Я второй суровый комментарий Ника Саббе, и мой короткий ответ: это не так . Я имею в виду, это только в нормальной линейной модели. Для абсолютно любых других обстоятельств точное распределение не является . Во многих ситуациях можно надеяться, что условия теоремы Уилкса будут выполнены, и тогда асимптотически статистика теста логарифмического отношения правдоподобия сходится по распределению к χ 2 . Ограничения и нарушения условий теоремы Уилкса слишком многочисленны, чтобы их игнорировать.χ2χ2

  1. В теореме предполагается, что данные iid ожидают проблем с зависимыми данными, такими как временные ряды или выборки обследования с неравной вероятностью (для которых вероятности, во всяком случае, плохо определены; «регулярные» тесты χ 2 , такие как тесты независимости в таблицах непредвиденных обстоятельств, начинают вести себя как сумма k a k v k , v kiid χ 2 1 ( Рао и Скотт ). Для данных iid a k = 1 , и сумма становится χ 2. Но для независимых данных это не дольше дела.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. В теореме предполагается, что истинный параметр находится внутри пространства параметров. Если у вас есть евклидово пространство для работы, это не проблема. Однако в некоторых задачах могут возникать естественные ограничения, такие как дисперсия 0 или корреляция между -1 и 1. Если истинным параметром является граница, то асимптотическое распределение представляет собой смесь χ 2 с различными степенями свободы, в том смысле, что cdf теста представляет собой сумму таких cdfs ( Andrews 2001 , плюс две или три его работы того же периода, с историей, восходящей к Черноффу 1954 ).χ2
  3. Теорема предполагает, что все соответствующие производные отличны от нуля. Это может быть связано с некоторыми нелинейными проблемами и / или параметризацией, и / или ситуациями, когда параметр не идентифицирован под нулевым значением. Предположим, у вас есть модель гауссовой смеси, и ваш нуль равен одному компоненту сравнению с альтернативой двух различных компонентов f N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 )N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)с фракцией смешивания . Нуль, по-видимому, вложен в альтернативу, но это можно выразить различными способами: как f = 0 (в этом случае параметры μ 1 , σ 2 1 не определены), f = 1 (в этом случае μ 2 , σ 2 2 не определены), или μ 1 = μ 2 , σ 1 = σ 2 (в этом случае fff=0μ1,σ12f=1μ2,σ22μ1=μ2,σ1=σ2fне идентифицирован). Здесь вы даже не можете сказать, сколько степеней свободы должен иметь ваш тест, поскольку у вас различное количество ограничений в зависимости от того, как вы параметризуете вложение. Посмотрите на работу Цзяуа Чена, например, CJS 2001 .
  4. может работать нормально , если распределение было указано правильно. Но если это не так, тест снова сломается. В (часто игнорируемой статистиками) подрайоне многомерного анализа, известного как ковариационное моделирование структурных уравнений, часто предполагается многомерное нормальное распределение, но даже если структура правильная, тест будет работать некорректно, если распределение будет другим. Satorra и Bentler 1995 показывают, что распределение станет k a k v k , v kiid χ 2 1 , та же история, что и с независимыми данными в моем пункте 1, но они также продемонстрировали, какχ2kakvk,vki.i.d.χ12 s зависят от структуры модели и четвертых моментов распределения.ak
  5. Prob[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b

Для обзора этих и подобных эзотерических проблем в выводе вероятности см. Смит 1989 .

Stask
источник
1
B0B1 χ2
С известной дисперсией я должен добавить.
StasK