Похоже, что из-за различных связанных с этим вопросов существует консенсус, что «95%» часть того, что мы называем «95% доверительный интервал», относится к тому факту, что если бы мы точно повторяли наши процедуры выборки и вычисления CI много раз 95% рассчитанных таким образом КИ будут содержать среднее значение для населения. Также кажется, что консенсус в том, что это определение непозвольте одному из 95% -ного КИ сделать вывод, что есть 95% -ная вероятность того, что среднее значение находится где-то в пределах КИ. Тем не менее, я не понимаю, как первое не подразумевает второго, поскольку, предполагая, что многие КИ, 95% из которых содержат совокупное значение, не должно быть нашей неопределенности (в отношении того, содержит ли наш фактически вычисленный КИ население означает или нет) вынуждают нас использовать базовую норму предполагаемых случаев (95%) в качестве нашей оценки вероятности того, что в нашем фактическом случае содержится ДИ?
Я видел посты, спорящие по типу «фактически вычисленный КИ либо содержит среднее значение популяции, либо нет, поэтому его вероятность равна 1 или 0», но это, кажется, подразумевает странное определение вероятности, которое зависит в неизвестных штатах (то есть друг подбрасывает честную монету, скрывает результат, и я не могу сказать, что есть вероятность 50%, что у него голова).
Конечно, я ошибаюсь, но я не вижу, где моя логика пошла не так ...
источник
Ответы:
Частично проблема заключается в том, что частичное определение вероятности не позволяет применять нетривиальную вероятность к результату конкретного эксперимента, а только к некоторой фиктивной совокупности экспериментов, из которых этот конкретный эксперимент можно считать образцом. Определение КИ сбивает с толку, поскольку оно является утверждением об этой (обычно) фиктивной совокупности экспериментов, а не о конкретных данных, собранных в данном случае. Таким образом, частью проблемы является одно из определения вероятности: идея истинного значения, лежащая в определенном интервале с вероятностью 95%, не согласуется с частыми рамками.
Другой аспект проблемы заключается в том, что при расчете доверительной вероятности не используется вся информация, содержащаяся в конкретной выборке, которая имеет отношение к ограничению истинного значения статистики. Мой вопрос "Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам"обсуждается статья Эдвина Джейнса, в которой есть несколько действительно хороших примеров, которые действительно подчеркивают разницу между доверительными интервалами и достоверными интервалами. Одним из примеров, который особенно важен для этого обсуждения, является Пример 5, в котором обсуждается разница между достоверным и доверительным интервалами для оценки параметра усеченного экспоненциального распределения (для проблемы в промышленном контроле качества). В приведенном им примере в образце достаточно информации, чтобы быть уверенным, что истинное значение параметра нигде не лежит в правильно построенном 90% доверительном интервале!
Некоторым это может показаться шокирующим, но причина этого результата в том, что доверительные интервалы и достоверные интервалы являются ответами на два разных вопроса из двух разных интерпретаций вероятности.
Доверительный интервал является ответом на запрос: «Дайте мне интервал, который будет заключать в скобки истинное значение параметра в % случаев эксперимента, который повторяется большое количество раз». Достоверный интервал является ответом на запрос: «Дайте мне интервал, который заключает в скобки истинное значение с вероятностью для конкретной выборки, которую я действительно наблюдал». Чтобы иметь возможность ответить на последний запрос, мы должны сначала принять либо ) новая концепция процесса генерирования данных или (б) другая концепция определения самой вероятности. р100p p
Основная причина того, что любой конкретный 95% доверительный интервал не подразумевает 95% вероятности удержания среднего значения, заключается в том, что доверительный интервал является ответом на другой вопрос, поэтому он является правильным только в том случае, если ответ на эти два вопроса имеют одинаковое численное решение.
Короче говоря, достоверные и доверительные интервалы отвечают на разные вопросы с разных точек зрения; оба полезны, но вам нужно выбрать правильный интервал для вопроса, который вы действительно хотите задать. Если вы хотите интервал, который допускает интерпретацию 95% (апостериорной) вероятности содержания истинного значения, то выберите вероятный интервал (а вместе с ним и сопутствующую концептуализацию вероятности), а не доверительный интервал. То, что вы не должны делать, это принять другое определение вероятности в интерпретации, чем то, которое используется в анализе.
Спасибо @cardinal за его уточнения!
Вот конкретный пример из превосходной книги Дэвида Макая «Теория информации, логический вывод и алгоритмы обучения» (стр. 464):
Пусть интересующим параметром будет а данные - пара точек и нарисованная независимо от следующего распределения:д х 1 х 2θ D x1 x2
Если равно , то мы ожидаем увидеть наборы данных , , и с равной вероятностью . Рассмотрим доверительный интервал39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4θ 39 (39,39) (39,40) (40,39) (40,40) 1/4
Очевидно, что это действительный 75% доверительный интервал, потому что если вы повторно выбираете данные, , много раз, тогда построенный таким образом доверительный интервал будет содержать истинное значение 75% времени.D=(x1,x2)
Теперь рассмотрим данные . В этом случае частый 75% доверительный интервал будет . Однако, если предположить, что модель процесса генерации верна, может быть 28 или 29 в этом случае, и у нас нет оснований предполагать, что 29 более вероятно, чем 28, поэтому апостериорная вероятность равна . Таким образом, в этом случае частый доверительный интервал явно не является вероятным интервалом в 75%, поскольку существует только 50% вероятность того, что он содержит истинное значение , учитывая то , что мы можем сделать вывод о из этого конкретного образца .[ 29 , 29 ] θ р ( θ = 28 | D ) = р ( θ = 29 | D ) = 1 / 2 & thetas ; θD=(29,29) [29,29] θ p(θ=28|D)=p(θ=29|D)=1/2 θ θ
Да, это надуманный пример, но если бы доверительные интервалы и вероятные интервалы не отличались, то они все равно были бы идентичны в надуманных примерах.
Обратите внимание, что ключевое отличие состоит в том, что доверительный интервал - это утверждение о том, что произойдет, если вы повторили эксперимент много раз, а достоверный интервал - это утверждение о том, что можно сделать из этого конкретного образца.
источник
В статистике вероятностей вероятности связаны с событиями в долгосрочной перспективе. Они просто не относятся ни к одному событию после его завершения. И запуск эксперимента и расчет КИ - вот такое событие.
Вы хотели сравнить это с вероятностью того, что спрятанная монета будет головой, но вы не можете. Вы можете связать это с чем-то очень близким. Если в вашей игре было правило, согласно которому вы должны указывать после переворота «головы», то вероятность, что вы будете правы в долгосрочной перспективе, составляет 50%, и это аналогично.
Когда вы проводите свой эксперимент и собираете данные, у вас появляется нечто похожее на фактический бросок монеты. Процесс эксперимента подобен процессу подбрасывания монеты тем, что он генерируетμ или это не просто как монета в виде головы или нет. Как только вы подбрасываете монету, видите ли вы ее или нет, нет никакой вероятности, что это головы, это либо головы, либо нет. Теперь предположим, что вы называете головы. Вот что такое расчет КИ. Потому что вы никогда не сможете раскрыть монету (ваша аналогия с экспериментом исчезнет). Либо ты прав, либо не прав, вот и все. Имеет ли это текущее состояние какое-либо отношение к вероятности его появления на следующем флипе, или я мог бы предсказать, что это такое? Нет. Процесс, с помощью которого создается голова, имеет 0,5 вероятности их производства, но это не означает, что голова, которая уже существует, имеет вероятность быть 0,5. После того, как вы рассчитаете свой CI, нет вероятности, что он захватит μ это либо делает, либо нет - вы уже перевернули монету.
Ладно, думаю, я этого достаточно замучил. Критическим моментом является то, что ваша аналогия ошибочна. Вы никогда не сможете открыть монету; Вы можете назвать только головы или хвосты, основываясь на предположениях о монетах (эксперименты). Возможно, вы захотите потом сделать ставку на правильность своей головы или хвоста, но вы никогда не сможете получить ее. Кроме того, это важный компонент процедуры CI, который указывает, что значение import находится в интервале. Если вы этого не сделаете, то у вас нет CI (или, по крайней мере, не один на указанный%).
Вероятно, вещь, которая делает CI запутывающим, - это его имя. Это диапазон значений, которые либо содержат, либо не содержат . Мы думаем, что они содержат μ, но вероятность того, что это не то же самое, что процесс его разработки. 95% -ая часть имени 95% -й КИ как раз о процессе. Вы можете рассчитать диапазон, который, как вы считаете, впоследствии содержит μ на некотором уровне вероятности, но это другой расчет, а не КИ.μ μ μ
источник
Формальные, явные представления об аргументах, умозаключениях и логике возникли в рамках западной традиции у Аристотеля. Аристотель писал об этих темах в нескольких разных работах (в том числе под названием « Темы» ;-)). Тем не менее, самый основной принцип - это Закон Непротиворечия , который можно найти в разных местах, включая Метафизику.Книга IV, главы 3 и 4. Типичная формулировка такова: «... невозможно, чтобы что-то одновременно было и не было [в том же смысле]» (1006 a 1). Его важность была заявлена чуть ранее: «... это, естественно, отправная точка даже для всех других аксиом» (1005 b 30). Извините меня за растущее философское отношение, но этот вопрос по своей природе имеет философское содержание, которое нельзя просто отодвинуть для удобства.
Подумайте об этом мысленном эксперименте: Алекс подбрасывает монету, ловит ее и переворачивает на предплечье, закрывая руку стороной вверх. Боб стоял в правильном положении; он кратко увидел монету в руке Алекса и, таким образом, может определить, какая сторона обращена вверх. Однако Карлос не видел монету - он был не в нужном месте. В этот момент Алекс спрашивает их, какова вероятность того, что монета показывает головы. Карлос предполагает, что вероятность равна .5, так как это долгосрочная частота голов. Боб не согласен, он уверенно утверждает, что вероятность не что иное, как точно 0 .
Теперь, кто прав? Возможно, конечно, что Боб ошибся и ошибся (допустим, он не увидел). Тем не менее, вы не можете утверждать, что оба правы и придерживаются закона не противоречия. (Я полагаю, что если вы не верите в закон непротиворечия, вы могли бы подумать, что они оба правы, или какую-то другую подобную формулировку.) Теперь представьте себе аналогичный случай, но без Боба, может ли предложение Карлоса быть Правильнее (а?) без Боба вокруг, так как никто не видел монету? Применение закона непротиворечия не совсем ясно в этом случае, но я думаю, что очевидно, что части ситуации, которые кажутся важными, остаются неизменными от первого к последнему. Было много попыток определить вероятность, и в будущем еще может быть еще много, но определение вероятности как функции того, кто оказывается рядом, и где они расположены, мало привлекает. Во всяком случае (угадывая по использованию фразы "доверительный интервал "), мы работаем в рамках подхода Frequentist, и в этом отношении не важно, знает ли кто-нибудь истинное состояние монеты. Это не случайная величина - это реализованная величина, и она либо показывает головы, либо показывает хвосты ,
Для меня важно отметить, что все это относится к частым представлениям о вероятности. Байесовская перспектива не нарушает закон непротиворечия, она просто начинается с разных метафизических предположений о природе реальности (более конкретно о вероятности). Другие в CV гораздо лучше разбираются в байесовской перспективе, чем я, и, возможно, они могут объяснить, почему предположения, лежащие в основе вашего вопроса, не применимы в рамках байесовского подхода, и что на самом деле вполне может быть 95% вероятность среднего лежащий в пределах вероятности 95%интервал, при определенных условиях, включая (среди прочего), что предыдущее использование было точным (см. комментарий @DikranMarsupial ниже). Тем не менее, я думаю, что все согласятся, что, как только вы заявите, что работаете в рамках подхода Frequentist, это не может быть причиной того, что вероятность истинного среднего значения, лежащего в пределах любого конкретного 95% -ного доверительного интервала, составляет 0,95.
источник
Почему 95% -й ДИ не подразумевает 95-процентную вероятность сдерживания среднего значения?
В этом и многих других ответах есть много вопросов, которые необходимо прояснить. Я ограничусь только двумя из них.
а. Что такое население? Существует ли истинное население значит?
Концепция среднего населения зависит от модели. Поскольку все модели ошибочны, но некоторые из них полезны, это совокупность означает фикцию, которая определена просто для предоставления полезных интерпретаций. Художественная литература начинается с вероятностной модели.
б. Каково определение и цель доверительного интервала?
Примечание: читатели должны заметить, что нет необходимости делать предположения о состоянии реальности, доверительная область определяется для четко определенной статистической модели без ссылки на какое-либо «истинное» среднее значение. Даже если «истинная» мера вероятности не существует или ее нет в , определение доверительной области будет работать, поскольку предположения касаются статистического моделирования, а не состояний реальности.M
С одной стороны, перед наблюдением данных является случайным набором (или случайным интервалом), и вероятность того, что " содержит среднее значение ", по крайней мере, равна для всех . Это очень желательная особенность для парадигмы участника.Cα(X) Cα(X) μθ (1−α) θ∈Θ
С другой стороны, после наблюдения данных , является просто фиксированным набором, и вероятность того, что « содержит среднее значение », должна быть в {0,1} для все .x Cα(x) Cα(x) μθ θ∈Θ
То есть после наблюдения данных мы больше не можем использовать вероятностные рассуждения. Насколько я знаю, не существует теории для обработки наборов достоверности для наблюдаемой выборки (я работаю над этим и получаю некоторые хорошие результаты). Какое-то время частый участник должен верить, что наблюдаемый набор (или интервал) является одним из наборов, который содержит для всех ,x Cα(x) (1−α)100% μθ θ∈Θ
PS: я приглашаю любые комментарии, отзывы, критические замечания или даже возражения на мой пост. Давайте обсудим это подробно. Поскольку я не являюсь носителем английского языка, мой пост, безусловно, содержит опечатки и грамматические ошибки.
Ссылка:
Schervish, М. (1995), Теория статистики, Второе издание, Springer.
источник
Я удивлен, что никто не привел в пример Бергера практически бесполезный 75% доверительный интервал, описанный во второй главе «Принципа правдоподобия». Подробности можно найти в оригинальном тексте (который доступен бесплатно в Project Euclid ): что важно в этом примере, так это то, что он однозначно описывает ситуацию, в которой вы с абсолютной уверенностью знаете значение неизвестного параметра после наблюдения данных, но вы бы утверждали, что у вас есть только 75% уверенности, что ваш интервал содержит истинное значение. Проработка деталей этого примера позволила мне понять всю логику построения доверительных интервалов.
источник
Я не знаю, следует ли задавать этот вопрос как новый вопрос, но он решает тот же вопрос, который был задан выше, предлагая мысленный эксперимент.
Во-первых, я собираюсь предположить, что если я выберу игральную карту случайным образом из стандартной колоды, вероятность того, что я выбрал клуб (не глядя на него), будет 13/52 = 25%.
А во-вторых, много раз говорилось, что 95% доверительный интервал следует интерпретировать с точки зрения многократного повторения эксперимента, и рассчитанный интервал будет содержать истинное среднее значение 95% времени - я думаю, что это было достаточно убедительно продемонстрировано Джеймсом Уотерсом моделирование. Похоже, что большинство людей принимают эту интерпретацию 95% ДИ.
Теперь для мысленного эксперимента. Давайте предположим, что у нас есть нормально распределенная переменная в большой популяции - может быть, высота взрослых мужчин или женщин. У меня есть готовый и неутомимый помощник, которому я поручаю выполнить несколько процессов выборки с заданным размером выборки из популяции и вычислить среднее значение выборки и 95% доверительный интервал для каждой выборки. Мой помощник очень увлечен и умеет измерить все возможные образцы из населения. Затем для каждой выборки мой помощник либо записывает полученный доверительный интервал в виде зеленого (если КИ содержит истинное среднее значение) или красного (если КИ не содержит истинное среднее значение). К сожалению, мой помощник не покажет мне результаты своих экспериментов. Мне нужно получить некоторую информацию о росте взрослого населения, но у меня есть только время, ресурсы и терпение, чтобы сделать эксперимент один раз. Я делаю одну случайную выборку (того же размера, что и мой помощник) и вычисляю доверительный интервал (используя то же уравнение).
У меня нет возможности увидеть результаты моего помощника. Итак, какова вероятность того, что выбранная мной случайная выборка даст зеленый CI (то есть интервал содержит истинное среднее)?
На мой взгляд, это то же самое, что и описанная ранее ситуация с колодой карт, и ее можно интерпретировать с вероятностью 95% того, что рассчитанный интервал содержит истинное среднее значение (т. Е. Зеленый цвет). И все же, кажется, что консенсус заключается в том, что 95% доверительный интервал НЕ МОЖЕТ интерпретироваться, поскольку существует 95% вероятность того, что интервал содержит истинное среднее значение. Почему (и где) мои рассуждения в вышеупомянутом мысленном эксперименте расходятся?
источник
Хотя в многочисленных замечательных ответах шла широкая дискуссия, я хочу добавить более простую перспективу. (хотя это было намекали в других ответах. - но не явно) Для некоторого параметра , и дается образец , доверительный интервал является вероятностным утверждением видаθ (X1,X2,⋯,Xn) 100p%
Если мы считаем константой, то приведенное выше утверждение касается случайных величин и или, точнее, случайный интервал .g ( X 1 , X 2 , ⋯ , X n ) f ( X 1 , X 2 , ⋯ , X n ) ( g ( X 1 , X 2 , ⋯ , X n ) , f ( X 1 , X 2 , ⋯ , X н ) )θ g(X1,X2,⋯,Xn) f(X1,X2,⋯,Xn) (g(X1,X2,⋯,Xn),f(X1,X2,⋯,Xn))
Таким образом, вместо предоставления какой-либо информации о вероятности того, что параметр содержится в интервале, он дает информацию о вероятности интервала, содержащего параметр - так как интервал сделан из случайных величин.
источник
В практических целях вы не ошибаетесь, если ставите, что ваш 95% -й КИ содержал истинное среднее значение с коэффициентом 95: 5, чем если бы вы ставили на бросок монеты вашего друга с коэффициентом 50:50.
Если ваш друг уже перевернул монету, и вы думаете, что вероятность того, что она окажется головой, составляет 50% , тогда вы просто используете другое определение вероятности слова. Как уже говорили другие, для часто встречающихся вы не можете назначить вероятность события, которое произошло, но вы можете описать вероятность события, которое произойдет в будущем, используя данный процесс.
Из другого блога: Частый участник скажет: «У конкретного события не может быть вероятности. Монета показывает либо голову, либо хвосты, и если вы не покажете это, я просто не могу сказать, каков факт. Только если вы повторили бы бросок много-много раз, если вы достаточно сильно измените начальные условия бросков, я ожидаю, что относительная частота голов во всех этих множествах приблизится к 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability
источник
Скажите, что КИ, который вы рассчитали на основе определенного набора данных, является одним из 5% возможных КИ, которые не содержат среднего значения. Насколько он близок к 95% вероятному интервалу, который вы хотели бы себе представить? (То есть насколько это близко к среднему значению с вероятностью 95%?) Вы не уверены, что оно близко. Фактически, ваш CI не может перекрываться даже с одним из 95% 95% CI, которые действительно содержат среднее значение. Не говоря уже о том, что оно не содержит само значение, что также предполагает, что это не 95% вероятный интервал.
Может быть, вы хотите игнорировать это и оптимистично предположить, что ваш CI является одним из 95%, которые содержат среднее значение. Хорошо, что мы знаем о вашем CI, учитывая, что он в 95%? То, что оно содержит среднее, но, возможно, единственный крайний выход, исключая все остальное с другой стороны от среднего. Не может содержать 95% распределения.
В любом случае, нет никакой гарантии, возможно, нет даже разумной надежды на то, что ваш 95% -й доверительный интервал - это 95% вероятный интервал.
источник
Если вы только предполагаете, что ваши друзья подбрасывают монеты с 50% головами / хвостами, значит, вы делаете это неправильно.
Конечно, достоверность вашего предположения о броске монеты будет зависеть от этих условий и не всегда будет одинаковой на 50% (иногда ваш метод «мошенничества» может работать лучше).
Ваше общее предположение может быть, если вы обманываете, х> 50% времени правильно, но это не обязательно означает, что вероятность каждого конкретного броска постоянно х% головы. Так что было бы немного странно проецировать вашу общую вероятность на вероятность конкретного броска. Это другой «тип вероятности».
Это немного о том, на какой уровень или глубину вы указываете / определяете «вероятность» .
Доверие не зависит от «конкретной вероятности в конкретном эксперименте / броске» и не зависит от «априорной вероятности» .
Уверенность в ансамбле экспериментов . Он построен таким образом, что вам не нужно знать априорные вероятности или распределения в популяции.
Доверие относится к общей «частоте отказов» оценки, но для конкретных случаев можно было бы более точно указать вариации вероятности .
( Эти вариации в вероятности, по крайней мере, существуют неявно , в теории, и нам не нужно знать их, чтобы они существовали. Но мы можем явно выразить эти вероятности, используя байесовский подход).
Пример 1:
Если у вас заболел 1% населения, то в среднем вы получите 1,98% положительного результата теста (1% из 99% здоровых людей дают положительный результат теста, а 99% из 1% больных имеют положительный результат). Это делает ваш 95% интервал CI (условный), когда вы сталкиваетесь с положительным тестом , правильным только в 50% случаев.
Пример 2:
(обратное верно для людей, которые имеют результаты, близкие к 100, их IQ, вероятно, будет более вероятным, чем 95% при 95% -ном доверительном интервале, и это должно компенсировать ошибки, которые вы допустили в крайних случаях, так что вы в конечном итоге окажетесь правы в 95% случаев)
источник
Во-первых, давайте дадим определение доверительного интервала, или, в пространствах измерения больше единицы, доверительной области. Это определение является краткой версией, данной Ежи Нейманом в его статье 1937 года Королевскому обществу.
Пример учебника по оценке среднего значения по населению со стандартным доверительным интервалом, построенным по нормальной статистике, является частным случаем предыдущих предположений. Поэтому стандарт 95% доверительный интервал делает содержит среднее значение с вероятностью 0,95; но это соответствие обычно не имеет места.
источник
Здесь есть несколько интересных ответов, но я решил добавить небольшую практическую демонстрацию с использованием R. Недавно мы использовали этот код в курсе статистики, чтобы показать, как работают доверительные интервалы. Вот что делает код:
1 - Это выборки из известного распределения (n = 1000)
2 - Он рассчитывает 95% ДИ для среднего значения каждого образца
3 - Он спрашивает, включает ли CI каждого образца истинное среднее значение.
4 - В консоли отображается доля CI, включающая истинное среднее.
Я просто запускал сценарий несколько раз, и на самом деле нередко обнаруживается, что менее 94% КИ содержали истинное среднее значение. По крайней мере, для меня это помогает развеять идею о том, что доверительный интервал с вероятностью 95% содержит истинный параметр.
Надеюсь это поможет!
источник