Чтобы рассчитать доверительный интервал (CI) для среднего значения с неизвестным стандартным отклонением популяции (sd), мы оцениваем стандартное отклонение популяции, используя t-распределение. Примечательно, что где . Но поскольку у нас нет точечной оценки стандартного отклонения совокупности, мы оцениваем через приближениегде
И наоборот, для пропорции населения, рассчитать CI, аппроксимировать , как где при условиии
Мой вопрос: почему мы удовлетворены стандартным распределением доли населения?
Ответы:
Как стандартное нормальное распределение, так и распределение Стьюдента довольно плохое приближение к распределению
при маломn, так бедно , что ошибка затмевает различия между этими двумя распределениями.
Вот сравнение всех трех распределений (исключив случаи , когда р или 1 - р равны нулю, где неопределенное отношение) для п = 10 , р = 1 / 2 :p^ 1−p^ n=10,p=1/2:
«Эмпирическое» распределение является то , чтоZ, который должен быть дискретным , поскольку оценки р ограничены конечного множества { 0 , 1 / п , 2 / п , ... , п / п } .p^ {0,1/n,2/n,…,n/n}.
Распределениеt кажется, делает лучшую работу приближения.
Дляn=30 и p=1/2, вы можете увидеть разницу между стандартными распределениями нормальных и Стьюдента совершенно незначительна:
Поскольку t-распределение Стьюдента является более сложным, чем стандартное Normal (на самом деле это целое семейство распределений, индексируемых «степенями свободы», для которых раньше требовались целые главы таблиц, а не одна страница), стандартный Normal используется почти для всех приближения.
источник
Обоснование использования t-распределения в доверительном интервале для среднего значения основывается на предположении, что базовые данные следуют нормальному распределению, что приводит к распределению хи-квадрат при оценке стандартного отклонения и, таким образом,x¯−μs/n√∼tn−1 . Это точный результат в предположении, что данные являются в точности нормальными, что приводит к доверительным интервалам с ровно 95% -ным охватом при использованииt и менее 95% -ным охватом при использованииz .
В случае интервалов Wald для пропорций, вы получите только асимптотическую нормальность для р - рp^−pp^(1−p^)/n√ когда п достаточно велико, что зависит от р. Фактическая вероятность охвата процедуры, поскольку основные показатели успеха являются дискретными, иногда ниже, а иногда и выше номинальной вероятности охвата в 95% в зависимости от неизвестного значенияp . Таким образом, нет никакого теоретического обоснования использованияt , и нет никакой гарантии, что с практической точки зрения использованиеt только для того, чтобы увеличить интервалы, фактически помогло бы достичь номинального покрытия в 95%.
Вероятность покрытия может быть точно рассчитана, хотя ее довольно просто смоделировать. В следующем примере показана моделируемая вероятность покрытия при n = 35. Это демонстрирует, что вероятность покрытия для использования z-интервала, как правило, немного меньше, чем 0,95, в то время как вероятность покрытия для T-интервала, как правило, может быть немного ближе к 0,95 в среднем, в зависимости от ваших предыдущих предположений о вероятных значениях p ,
источник
И AdamO, и JSK дают отличный ответ.
Я бы попробовал повторить их пункты простым английским языком
Когда базовое распределение нормальное, вы знаете, что есть два параметра: среднее значение и дисперсия . T-распределение предлагает способ сделать вывод о среднем, не зная точного значения дисперсий. Вместо использования фактических отклонений требуются только выборочные средние значения и выборочные отклонения. Поскольку это точное распределение, вы точно знаете, что вы получаете. Другими словами, вероятность покрытия верна. Использование t просто отражает желание обойти неизвестную дисперсию населения.
Однако, когда мы делаем вывод о пропорции, базовое распределение является биномиальным. Чтобы получить точное распределение, вам нужно взглянуть на доверительные интервалы Клоппера-Пирсона. Формула, которую вы предоставляете, - это формула для доверительного интервала Вальда. Для аппроксимации биномиального распределения используется нормальное распределение, поскольку нормальное распределение является ограничивающим распределением биномиального распределения. В этом случае, поскольку вы только приближаетесь, дополнительный уровень точности при использовании t-статистики становится ненужным, все сводится к эмпирической производительности. Как указывалось в ответе BruceET, Agresti-Coull является простой и стандартной формулой в наше время для такого приближения.
Мой профессор доктор Лонгнекер из Техаса A & M провел простую симуляцию, чтобы проиллюстрировать, как работает другое приближение по сравнению с биномиальной КИ.
Дополнительную информацию можно найти в статье Оценка интервалов для биномиальной пропорции в статистической науке , том. 16, pp.101-133, L. Brown, T. Cai и A. DasGupta. В основном, AC CI рекомендуется для n> = 40.
источник
источник
Обратите внимание на ваше использованиеσ обозначение, которое означает (известное) стандартное отклонение населения.
T-распределение возникло как ответ на вопрос: что происходит, когда вы не знаетеσ ?
Он отметил, что, когда вы обманываете, оцениваяσ Исходя из примера оценки подключаемых модулей, ваши CI в среднем слишком узкие. Это потребовало Т-распределения.
И наоборот, если вы используете дистрибутив T , когда вы на самом деле сделать ноуσ Ваши доверительные интервалы в среднем будут слишком широкими.
Also, it should be noted that this question mirrors the answer solicited by this question.
источник