Я примерно и неофициально знаю, что такое доверительный интервал. Однако я не могу обернуться вокруг одной довольно важной детали: согласно Википедии:
Доверительный интервал не предсказывает, что истинное значение параметра имеет конкретную вероятность нахождения в доверительном интервале с учетом фактически полученных данных.
Я также видел подобные замечания, сделанные в нескольких местах на этом сайте. Более правильное определение, также из Википедии, таково:
если доверительные интервалы построены по многим отдельным анализам данных повторных (и, возможно, различных) экспериментов, доля таких интервалов, которые содержат истинное значение параметра, будет приблизительно соответствовать доверительному уровню
Опять же, я видел подобные замечания, сделанные в нескольких местах на этом сайте. Я не понимаю Если при повторных экспериментах доля вычисленных доверительных интервалов, которые содержат истинный параметр равна , то как может вероятность того, что находится в доверительном интервале, вычисленном для фактического эксперимента, быть отличной от ? Я ищу следующее в ответе:( 1 - α ) θ ( 1 - α )
Разъяснение различия между неправильным и правильным определениями выше.
Формальное, точное определение доверительного интервала, которое ясно показывает, почему первое определение неверно.
Конкретный пример случая, когда первое определение явно неверно, даже если базовая модель верна.
источник
mu
, и, B) изменчивость среднего значения репликации вокругmu
. Большинство людей забывают: оригинальный КИ не обязательно построен вокругmu
!Ответы:
Я нашел этот мысленный эксперимент полезным, когда думал о доверительных интервалах. Это также отвечает на ваш вопрос 3.
Пусть и . Рассмотрим два наблюдения для принимая значения и соответствующие наблюдениям и для , и пусть и . Тогда - это 50% доверительный интервал для (поскольку интервал включает себя if или , каждый из которых имеет вероятность ).Y = X + a - 1X∼U(0,1) Y=X+a−12 Y y1 y2 x1 x2 X yl=min(y1,y2) yu=max(y1,y2) [yl,yu] a a x1<12<x2 x1>12>x2 14
Однако, если то мы знаем, что вероятность того, что интервал содержит равна , а не . Тонкость заключается в том, что доверительный интервал для параметра означает, что конечные точки интервала (которые являются случайными переменными) лежат по обе стороны от параметра с вероятностью до вычисления интервала , а не с вероятностью параметра лежащий в пределах интервала после того, как вы вычислили интервал .yu−yl>12 a 1 12 z% z% z%
источник
Есть много вопросов, касающихся доверительных интервалов, но давайте сосредоточимся на цитатах. Проблема заключается в возможных неправильных интерпретациях, а не в правильности. Когда люди говорят «параметр имеет определенную вероятность» чего-либо, они думают о параметре как о случайной переменной. Это не точка зрения (классической) процедуры доверительного интервала, для которой случайной величиной является сам интервал, а параметр определяется не случайно, но пока неизвестно. Вот почему такие заявления часто подвергаются нападкам.
Математически, если мы допустим, чтобы была любой процедурой, которая отображает данные на подмножества пространства параметров, и если (независимо от значения параметра может быть) утверждение определяет событие , затем - по определению - имеет вероятность для любого возможного значения . Когда является процедурой доверительного интервала с доверительной вероятностью предполагается, что эта вероятность имеет инфимум (по всем значениям параметров)t x=(xi) θ θ∈t(x) A(x) Prθ(A(x)) θ t 1−α 1−α , (С учетом этого критерия мы обычно выбираем процедуры, которые оптимизируют некоторые дополнительные свойства, такие как создание коротких доверительных или симметричных интервалов, но это отдельный вопрос.) Слабый закон больших чисел тогда оправдывает вторую цитату. Это, однако, не является определением доверительных интервалов: это просто свойство, которым они обладают.
Я думаю, что этот анализ ответил на вопрос 1, показывает, что предпосылка вопроса 2 неверна, и делает вопрос 3 спорным.
источник
Я бы не назвал определение КИ неправильным, но его легко неверно истолковать, поскольку существует более одного определения вероятности. КИ основаны на следующем определении вероятности (частое или онтологическое)
(1) вероятность предложения = долгосрочная доля случаев, когда предложение считается истинным, зависит от процесса генерации данных
Таким образом, чтобы быть концептуально действительным при использовании КИ, вы должны принять это определение вероятности. Если вы этого не сделаете, то ваш интервал не является CI, с теоретической точки зрения.
Вот почему определение использовало слово пропорция, а НЕ слово вероятность , чтобы прояснить, что используется определение вероятности "долгосрочной частоты".
Основное альтернативное определение вероятности (гносеологическое или вероятностное как продолжение дедуктивной логики или байесовского)
(2) вероятность суждения = рациональная степень убежденности в том, что суждение истинно, зависит от состояния знания
Люди часто интуитивно путают оба эти определения и используют любую интерпретацию, которая обращается к их интуиции. Это может привести вас в самые разные запутанные ситуации (особенно когда вы переходите от одной парадигмы к другой).
То, что два подхода часто приводят к одному и тому же результату, означает, что в некоторых случаях мы имеем:
рациональная степень уверенности в том, что суждение истинно, зависит от состояния знаний = долгосрочная доля раз, когда суждение считается истинным, зависит от процесса генерирования данных
Дело в том, что оно не выполняется универсально , поэтому мы не можем ожидать, что два разных определения всегда приведут к одним и тем же результатам. Таким образом, если вы на самом деле не разработаете байесовское решение, а затем не обнаружите, что оно совпадает с интервалом, вы не можете дать интервал, заданный CI, интерпретацией как вероятность содержания истинного значения. И если вы это сделаете, то интервал - это не доверительный интервал, а достоверный интервал.
источник
У RA Фишера был критерий полезности доверительных интервалов: КИ не должен допускать «идентифицируемых подмножеств», которые подразумевают другой уровень достоверности. В большинстве (если не во всех) контрпримерах у нас есть случаи, когда существуют идентифицируемые подмножества, которые имеют разные вероятности покрытия.
В этих случаях вы можете либо использовать байесовские кредитные интервалы, чтобы указать субъективный смысл того, где находится параметр, либо вы можете сформулировать интервал вероятности, чтобы отразить относительную неопределенность в параметре, учитывая данные.
Например, один случай, который кажется относительно свободным от противоречий, - это двусторонний нормальный доверительный интервал для среднего по населению. Предполагая выборку из нормальной популяции с данным стандартным значением, 95% ДИ допускает отсутствие идентифицируемых подмножеств, которые могли бы предоставить больше информации о параметре. Это видно по тому факту, что среднее значение выборки является достаточной статистикой в функции правдоподобия, т. Е. Функция правдоподобия не зависит от значений отдельных выборок, когда мы знаем среднее значение выборки.
Причина, по которой у нас есть какая-либо субъективная уверенность в 95% симметричном КИ для нормального среднего, меньше связана с заявленной вероятностью охвата, а больше - с тем фактом, что симметричный 95% КИ для нормального среднего значения является интервалом «наибольшей вероятности», т. Е. Все Значения параметров в пределах интервала имеют более высокую вероятность, чем любое значение параметра вне интервала. Однако, поскольку вероятность не является вероятностью (в смысле долгосрочной точности), это скорее субъективный критерий (как и байесовское использование априора и вероятности). В итоге, существует бесконечное множество интервалов для нормального среднего значения, которые имеют 95% -ную вероятность охвата, но только симметричный CI обладает интуитивной правдоподобностью, которую мы ожидаем из оценки интервала.
Следовательно, критерий Р. А. Фишера подразумевает, что вероятность охвата должна приравниваться к субъективной достоверности, только если она не допускает ни одного из этих идентифицируемых подмножеств. Если подмножества присутствуют, то вероятность покрытия будет зависеть от истинных значений параметра (ов), описывающих подмножество. Чтобы получить интервал с интуитивно понятным уровнем достоверности, вам нужно будет указать интервал оценки в соответствующей вспомогательной статистике, которая помогает идентифицировать подмножество. ИЛИ, вы можете прибегнуть к моделям дисперсии / смеси, что, естественно, приводит к интерпретации параметров как случайных величин (так называемая байесовская статистика), или вы можете рассчитать профиль / условные / предельные вероятности в рамках схемы вероятности. В любом случае, вы отказались от какой-либо надежды придумать объективно проверяемую вероятность быть правильным,
Надеюсь это поможет.
источник
С теоретической точки зрения Вопросы 2 и 3 основаны на неверном допущении, что определения неверны. Поэтому я согласен с ответом @ whuber в этом отношении, и ответ @ whuber на вопрос 1 не требует от меня дополнительной информации.
Тем не менее, с более практической точки зрения доверительный интервал может быть дан в его интуитивном определении (Вероятность содержания истинного значения), когда он численно идентичен байесовскому достоверному интервалу, основанному на той же информации (т.е. неинформативном априорном).
Но это несколько уныло для жесткого антибайесовского алгоритма, потому что для того, чтобы проверить условия, чтобы дать своему КИ интерпретацию, которую он / она хочет дать, они должны выработать байесовское решение, для которого автоматически выполняется интуитивная интерпретация!
Самым простым примером является доверительный интервал в для нормального среднего с известной дисперсией и задним правдоподобным интервалом в .1−α x¯¯¯±σZα/2 1−α x¯¯¯±σZα/2
Я не совсем уверен в условиях, но я знаю, что для интуитивной интерпретации КИ важно придерживаться следующего:
1) существует статистика Pivot, распределение которой не зависит от параметров (существуют ли точные центры вне нормального распределения и распределения хи-квадрат?)
2) нет никаких неприятных параметров (за исключением случая Pivotal-статистики, который является одним из немногих точных способов обработки неприятных параметров при создании КИ)
3) существует достаточная статистика для интересующего параметра, и доверительный интервал использует достаточную статистику
4) выборочное распределение достаточной статистики и апостериорное распределение имеют некоторую симметрию между достаточной статистикой и параметром. В нормальном случае распределение выборки симметрии находится в то время как .(x¯¯¯|μ,σ)∼N(μ,σn√) (μ|x¯¯¯,σ)∼N(x¯¯¯,σn√)
Эти условия обычно трудно найти, и обычно быстрее вычислить байесовский интервал и сравнить его. Интересным упражнением может быть также попытка ответить на вопрос "для чего мой CI является также Credible Interval?" Вы можете узнать некоторые скрытые предположения о вашей процедуре CI, посмотрев на это ранее.
источник
Это вещь, которая может быть трудно понять:
Доверительный интервал относится к процедуре отбора проб. Если вы возьмете много выборок и рассчитаете 95% доверительный интервал для каждой выборки, вы обнаружите, что 95% этих интервалов содержат среднее значение по совокупности.
Это полезно, например, для отделов промышленного качества. Эти ребята берут много образцов, и теперь у них есть уверенность, что большинство их оценок будут довольно близки к реальности. Они знают, что 95% их оценок довольно хороши, но они не могут сказать это о каждой конкретной оценке.
Сравните это с бросающими кубиками: если бы вы бросили 600 (справедливых) кубиков, сколько бы 6 бросили? Ваше лучшее предположение - * 600 = 100.16
Однако, если вы бросили ОДИН кубик, бесполезно говорить: «С вероятностью 1/6 или 16,6% я теперь бросил 6». Почему? Потому что кубик показывает либо 6, либо какую-то другую фигуру. Вы бросили 6 или нет. Таким образом, вероятность равна 1 или 0. Вероятность не может быть .16
На вопрос перед броском, какова вероятность броска 6 с ОДНЫМ кубиком, байесовец ответил бы " " (основываясь на предварительной информации: все знают, что у кубика есть 6 сторон и равный шанс падать на кого-либо из них), но Frequentist сказал бы «Не знаю», потому что частота основана исключительно на данных, а не на априорных или какой-либо внешней информации.16
Аналогичным образом, если у вас есть только 1 выборка (таким образом, 1 доверительный интервал), вы не сможете сказать, насколько вероятно, что среднее значение популяции находится в этом интервале. Среднее (или любой параметр) либо в нем, либо нет. Вероятность равна либо 1, либо 0.
Кроме того, неверно, что значения в пределах доверительного интервала более вероятны, чем значения за пределами этого. Я сделал небольшую иллюстрацию; все измеряется в ° C. Помните, что вода замерзает при 0 ° C и кипит при 100 ° C.
Случай: в холодном озере мы бы хотели оценить температуру воды, которая течет ниже льда. Мы измеряем температуру в 100 местах. Вот мои данные:
Температуры в этом доверительном интервале определенно НЕ более вероятны, чем вне его. Средняя температура текущей воды в этом озере не может быть ниже 0 ° C, иначе это будет не вода, а лед. Часть этого доверительного интервала (а именно, секция от -0,8 до 0) на самом деле имеет 0% вероятности содержания истинного параметра.
В заключение: доверительные интервалы являются частым понятием, и поэтому основаны на идее повторных выборок. Если многие исследователи будут брать образцы из этого озера, и если все эти исследователи будут рассчитывать доверительные интервалы, то 95% этих интервалов будут содержать истинный параметр. Но для одного доверительного интервала невозможно сказать, насколько вероятно, что он содержит истинный параметр.
источник
Хорошо, я понимаю, что когда вы вычисляете 95% доверительный интервал для параметра, используя классические методы частых ответов, это не означает, что есть 95% вероятность того, что параметр находится в этом интервале. И все же ... когда вы подходите к проблеме с байесовской точки зрения и рассчитываете 95% вероятный интервал для параметра, вы получаете (при условии неинформативного априорного) точно такой же интервал, который вы получаете, используя классический подход. Так что , если я использую классические статистические данные для расчета 95% доверительного интервала (скажу) среднему значению набора данных, то это правда , что есть вероятность того , 95% , что параметр находится в этом интервале.
источник
Вы спрашиваете о доверительном интервале Frequentist . Определение (обратите внимание, что ни одно из ваших 2 цитирований не является определением! Только утверждения, которые оба являются правильными):
Таким образом, у вас есть модель (построенная с использованием данных наблюдений) и ее оценочные параметры. Затем, если вы сгенерировали несколько гипотетических наборов данных в соответствии с этой моделью и параметрами, предполагаемые параметры попадут в доверительный интервал.
Так что на самом деле этот частый подход использует модель и оценочные параметры как фиксированные, как указано, и рассматривает ваши данные как неопределенные - как случайную выборку из множества других возможных данных.
Это действительно трудно интерпретировать , и это часто используются в качестве аргумента для байесовской статистики ( который я думаю , что иногда может быть немного спорны . Байесовский статистик с другой стороны принимает данные в виде фиксированных и трактуют параметры как неопределенные. Байесовские правдоподобные интервалы являются затем на самом деле интуитивно понятный, как и следовало ожидать: байесовские достоверные интервалы - это интервалы, в которых с 95% лежит реальное значение параметра.
Но на практике многие люди интерпретируют частые доверительные интервалы так же, как байесовские достоверные интервалы, и многие статистики не считают это большой проблемой - хотя они все знают, что это не на 100% правильно. Кроме того, на практике интервалы между частотой и байесовской достоверностью / достоверностью не будут сильно отличаться при использовании байесовских неинформативных априорных значений .
источник
Предположим, мы находимся в простой ситуации. У вас есть неизвестный параметр и - оценка которая имеет неточность около 1 (неофициально). Вы думаете (неофициально) должен быть в чаще всего.θ T θ θ [T−1;T+1]
В реальном эксперименте вы наблюдаете .T=12
Естественно задать вопрос «Учитывая то, что я вижу ( ), какова вероятность ?». Математически: . Все естественно задают этот вопрос. Теория доверительных интервалов должна логически ответить на этот вопрос. Но это не так.T=12 θ∈[11;13] P(θ∈[11;13]|T=12)
Байесовская статистика действительно отвечает на этот вопрос. В байесовской статистике вы действительно можете рассчитать . Но вам нужно принять предшествующий , что это распределение для , прежде чем делать эксперимент и наблюдение . Например :P(θ∈[11;13]|T=12) θ T
Но в статистике частых случаев нет никакого предшествующего и, следовательно, ничего подобного не существует. Вместо этого статистики говорят что-то вроде этого: «Каким бы ни был , вероятность того, что равна ". Математически: "P(θ∈...|T∈...) θ θ∈[T−1;T+1] 0.95 ∀θ,P(θ∈[T−1;T+1]|θ)=0.95
Так :
Байесовское утверждение более естественно. Чаще всего частое утверждение спонтанно неверно истолковывается как байесовское утверждение (любым нормальным человеческим мозгом, который годами не занимался статистикой). И, честно говоря, многие статистические книги не дают четкого представления об этом.
А практически?
Во многих обычных ситуациях факт заключается в том, что вероятности, полученные с помощью частотного и байесовского подходов, очень близки. Так что запутанное частое утверждение для байесовского имеет небольшие последствия. Но «философски» это совсем другое.
источник