Почему Чи-квадрат используется при создании доверительного интервала для дисперсии?

15

Это очень простой вопрос. Почему мы используем распределение хи-квадрат? В чем смысл этого распределения? Почему это распределение используется для создания доверительного интервала для дисперсии?

Каждое место, где я пытаюсь найти объяснение, просто представляет этот факт, объясняет, когда использовать ци, но не объясняет, почему использовать ци и почему оно выглядит так, как оно.

Большое спасибо всем, кто может указать мне правильное направление, и это - действительно понимание, почему я использую ци, когда создаю доверительный интервал для дисперсии.

nafrtiti
источник
4
Вы используете его, потому что - когда данные нормальные - Q=(n1)s2σ2χn12 . (Это делаетQключевой величиной)
Glen_b
2
См. Также stats.stackexchange.com/questions/15711/… и его ссылки.
Ник Кокс
1
Для тех , кто заинтересован в приложениях или дальнейших исследований в χ2 , вы хотите , чтобы обратить внимание на различие между χ2 ( «хи-квадрат») распределения и χ ( «ци») распределения (это корень квадратный из χ2 , что неудивительно).
whuber

Ответы:

23

Быстрый ответ

Причина в том, что, предполагая, что данные XiN(μ,σ2) , и определяя

X¯=NXiNS2=N(X¯Xi)2N1
при формировании доверительных интервалов, распределение выборки, связанное с выборочной дисперсией (S2, помните, случайная величина!), Является распределением хи-квадрат (S2(N1)/σ2χn12 ), так же как распределение выборки, связанное со средним значением выборки, является стандартным нормальным распределением ((X¯μ)n/σZ(0,1) ), когда вы знаете дисперсию, и с t-студентом, когда вы не знаете ((X¯μ)n/STn1 ).

Длинный ответ

Прежде всего, мы докажем, что S2(N1)/σ2 следует распределению хи-квадрат сN1 степенями свободы. После этого мы увидим, как это доказательство полезно при получении доверительных интервалов для дисперсии, и как появляется распределение хи-квадрат (и почему оно так полезно!). Давайте начнем.

Доказательство

Для этого, возможно, вы должны привыкнуть к распределению хи-квадрат в этой статье Википедии . Это распределение имеет только один параметр: степени свободы, , и, случается, имеет функцию генерации момента (MGF), определяемую как m χ 2 ν ( t ) = ( 1 - 2 t ) - ν / 2 . Если мы покажем, что распределение S 2 ( N - 1 ) / σ 2 имеет функцию, порождающую моменты, как эта, но с ν =ν

мχν2(T)знак равно(1-2T)-ν/2,
S2(N-1)/σ2 , то мы показали, что S 2 ( N - 1 ) / σ 2 следует распределению хи-квадрат с N - 1 степенями свободы. Чтобы показать это, обратите внимание на два факта:νзнак равноN-1S2(N-1)/σ2N-1
  1. Если мы определим, гдеZiN(0,

    Yзнак равноΣ(Икся-Икс¯)2σ2знак равноΣZя2,
    , т. е. для стандартных нормальных случайных величин, производящая момент функция Y задается как m Y ( t )Zя~N(0,1)Y MGF дляZ2определяется как m Z 2 ( t )
    мY(T)знак равноЕ[еTY]знак равноЕ[еTZ12]×Е[еTZ22]×,,,Е[еTZN2]знак равномZя2(T)×мZ22(T)×,,,мZN2(T),
    Z2 где использовали PDF стандартного нормального,ф(г)
    mZ2(t)=f(z)exp(tz2)dz=(12t)1/2,
    и, следовательно, mY(t)=(1-2t) - N /f(z)=ez2/2/2π чегоследует, что Y следует распределению хи-квадрат с N степенями свободы.
    mY(t)=(12t)N/2,
    YN
  2. Если и Y 2 независимы и каждый из них распределен как распределение хи-квадрат, но с ν 1 и ν 2 степенями свободы, то W = Y 1 + Y 2Y1Y2ν1ν2W=Y1+Y2ν1+ν2W

N1

(N-1)S2знак равно-N(Икс¯-μ)+Σ(Икся-μ)2,
σ2
(N-1)S2σ2+(Икс¯-μ)2σ2/Nзнак равноΣ(Икся-μ)2σ2,
NS2(N-1)/σ2N-1

Расчет доверительного интервала для дисперсии.

L1L2

P(L1σ2L2)=1α.
S2(N1)
L1S2(N1)σ2S2(N1)L2S2(N1).
S2(N1)/σ2N1
L1S2(N1)σ2S2(N1)S2(N1)σ2S2(N1)L1,σ2S2(N1)L2S2(N1)S2(N1)L2S2(N1)σ2,
P(S2(N1)L2S2(N1)σ2S2(N1)L1)=1α.
S2(N1)/σ2χ2(N1)
S2(N1)L2N1pχ2(x)dx=(1α)/2   ,N1S2(N1)L1pχ2(x)dx=(1α)/2  
(we integrate up to N1 because the expected value of a chi-squared random variable with N1 degrees of freedom is N1) or, equivalently,
0S2(N1)L2pχ2(x)dx=α/2,S2(N1)L1pχ2(x)dx=α/2.
Calling χα/22=S2(N1)L2 and χ1α/22=S2(N1)L1, where the values χα/22 and χ1α/22 can be found in chi-square tables (in computers mainly!) and solving for L1 and L2,
L1=S2(N1)χ1α/22,L2=S2(N1)χα/22.
Hence, your confidence interval for the variance is
C.I.=(S2(N1)χ1α/22,S2(N1)χα/22).
Néstor
источник
1
Просто потому что S2 не следует центрированному распределению хи-квадрат, в то время как S2(N-1)/σ2делает и, следовательно, его легче работать. Вы запрашиваете вывод для этого? (т.е. вы хотите, чтобы кто-то показал вам, чтоS2(N-1)/σ2 следует распределению хи-квадрат с N-1 степени свободы?)
Нестор
4
It would be helpful to modify this answer to include the very strong but unstated assumption that the sample variance follows a chi-squared distribution when the underlying data are independent and follow a normal distribution. Unlike the theory of the distribution of the sample mean, where in practice its sampling distribution will be approximately Normal to reasonable accuracy in many situations, this same asymptotic behavior tends not to happen with the sample variance (until sample sizes become extremely large).
whuber
1
К сожалению. Так, правда! Это на самом деле пришло из решения проблемы, которое я раздал некоторым студентам, где я изложил по этому вопросу все эти предположения. Я отредактировал ответ сейчас.
Нестор
1
@user34756 The reason we don't use the distribution of S2 directly is that its distribution depends on the value of a parameter. You may find it useful to investigate the use of pivotal quantities in constructing confidence intervals.
Glen_b -Reinstate Monica
1
Isn't f(z)=ez2/2 instead of f(z)=ez2 ?
Бенуа Легат