Почему эти утверждения не логически вытекают из 95% -ного КИ для среднего значения?

26

Я читал статью Hoekstra et al 2014 года «Надежное неверное истолкование доверительных интервалов», которую я скачал с сайта Wagenmakers .

На предпоследней странице появляется следующее изображение.

викторина

По мнению авторов, Ложь является правильным ответом на все эти утверждения. Я не очень уверен, почему заявления ложны, и, насколько я могу судить, остальная часть статьи не пытается объяснить это.

Я считаю, что 1-2 и 4 не верны, потому что они утверждают что-то о вероятном значении истинного среднего, когда истинное среднее имеет определенное значение, которое неизвестно. Это убедительное различие?

Что касается 3, я понимаю, что никто не должен утверждать о вероятности того, что нулевая гипотеза неверна, хотя я не очень уверен в причине этого.

Точно так же 6 не может быть правдой, потому что это означает, что истинное среднее значение меняется от эксперимента к эксперименту.

То, чего я действительно не понимаю, - это 5. Почему это неправильно? Если у меня есть процесс, который в 95% случаев производит КИ, которые содержат истинное среднее значение, почему я не должен сказать, что у меня 95% уверенности, что значение популяции составляет от 0,1 до 0,4? Это потому, что у нас может быть какая-то особая информация о выборке, которую мы только что взяли, которая заставляет нас думать, что это, вероятно, один из 5%, который не содержит истинного среднего значения? Например, 0,13 входит в доверительный интервал и по какой-то причине 0,13 не считается вероятным значением в некотором конкретном контексте исследования, например, потому что это значение будет противоречить предыдущей теории.

Что значит доверие в этом контексте?

user1205901 - Восстановить Монику
источник

Ответы:

11

Само значение вопроса (5) зависит от некоторой нераскрытой интерпретации «уверенности». Я тщательно обыскал газету и не нашел попыток определить «доверие» или то, что это может означать в этом контексте. В статье дан ответ на вопрос (5):

«... [он] упоминает границы КИ, тогда как ... КИ может использоваться для оценки только процедуры, а не конкретного интервала».

Это и обманчиво, и вводит в заблуждение. Во-первых, если вы не можете оценить результат процедуры, то какая польза от этой процедуры? Во-вторых, утверждение в вопросе не о процедуре, а о «уверенности» читателя в ее результатах.

Авторы защищают себя:

«Прежде чем продолжить, важно вспомнить правильное определение КИ. КИ - это числовой интервал, построенный вокруг оценки параметра. Однако такой интервал не указывает непосредственно на свойство параметра; вместо этого он указывает свойство процедуры, как это характерно для метода частых ".

Их предвзятость проявляется в последней фразе: «техника для частых» (написанная, возможно, с неявной насмешкой). Хотя эта характеристика верна, она критически неполна. Нельзя заметить, что доверительный интервал также является свойством экспериментальных методов (как образцы были получены и измерены) и, что более важно, самой природы. Это единственная причина, почему кто-то будет заинтересован в его ценности.

Недавно я имел удовольствие читать циркулярную статистику Эдварда Батшеле в биологии (Academic Press, 1981). Батшелет пишет четко и точно, в стиле, направленном на работающего ученого. Вот что он говорит о доверительных интервалах:

« Оценка параметра без указания отклонений, вызванных случайными колебаниями, имеет небольшое научное значение. ...

«В то время как оцениваемый параметр является фиксированным числом, доверительные пределы определяются выборкой. Они представляют собой статистику и, следовательно, зависят от случайных колебаний. Различные выборки, взятые из одной и той же совокупности, приводят к различным доверительным интервалам».

[Акцент в оригинале, на стр. 84-85.]

Обратите внимание на разницу в акценте: в то время как рассматриваемый документ фокусируется на процедуре, Batschelet фокусируется на выборке и, в частности, на том, что он может показать о параметре и насколько эта информация может быть затронута «случайными колебаниями». Я считаю это беззастенчиво практический, научный подход гораздо более конструктивными, освещая, и - в конечном счете - полезно.

Поэтому более полная характеристика доверительных интервалов, чем предложенная в статье, должна была бы выглядеть примерно так:

КИ - это числовой интервал, построенный вокруг оценки параметра. Любой, кто соглашается с допущениями, лежащими в основе конструкции CI, имеет право сказать, что он уверен, что параметр находится в пределах интервала: это означает «уверенный». Это значение в целом соответствует общепринятым нетехническим значениям достоверности, поскольку при многих повторениях эксперимента (независимо от того, имеют ли они место на самом деле), CI, хотя и будет варьироваться, как ожидается, будет содержать параметр большую часть времени.

В этом более полном, более традиционном и более конструктивном смысле «уверенности» ответ на вопрос (5) является верным.

Whuber
источник
2
Примечательно, что подход Батшелет, по-видимому, исключает определенные виды доверительных интервалов, которые дают вдумчивым читателям паузу, такие как КИ, которые могут быть пустыми. Такой КИ вряд ли уловил бы идею «признаков отклонений, вызванных случайными колебаниями». Это намекает на то, что, возможно, стандартное определение доверительного интервала не совсем соответствует тому, что предполагалось. Несмотря на это, в отсутствие какого-либо четкого указания на то, что означает «доверие» в вопросе (5), мы должны игнорировать любые выводы, сделанные авторами на основании ответов, которые они получили на этот вопрос.
whuber
Я бы не согласился с тем, что 5 является правильным при вашем уточненном определении доверительного интервала. CI должен основываться на достаточной статистике - иначе вы можете создавать CI, которые имеют «плохой» и «хороший» подкласс дел, распознаваемый по имеющейся у вас выборке, так что охват в этих классах слишком низкий или слишком высокий. Самым базовым примером является образец размера 2 из . Среднее значение выборки недостаточно для поэтому ваш охват CI варьируется в зависимости от конкретного образца, который вы получаете. μyicauchy(μ,1)μ
вероятностная
... продолжение ... так что, хотя долгосрочный средний охват достигнут, охват в определенном классе выборок не будет.
вероятностная
10

Вопросы 1-2, 4: в частом анализе истинное среднее значение не является случайной величиной, поэтому вероятности не определены, тогда как в байесовском анализе вероятности будут зависеть от предыдущего.

Вопрос 3: Например, рассмотрим случай, когда мы точно знаем, что все еще возможно получить эти результаты, но довольно необоснованно говорить, что нулевая гипотеза «вряд ли» будет верной. Мы получили данные, которые вряд ли возникнут, если нулевая гипотеза верна, но это не означает, что нулевая гипотеза вряд ли верна.

Вопрос 5: Это немного сомнительно, поскольку это зависит от определения «мы можем быть уверены на p». Если мы определяем утверждение как означающее то, что выводится из p% доверительных интервалов, утверждение по определению является правильным. Типичный про-байесовский аргумент гласит, что люди склонны интуитивно интерпретировать эти утверждения, чтобы обозначить «вероятность равна p%», что было бы ложным (сравните ответы с 1-2,4).

Вопрос 6: Ваше объяснение «оно подразумевает, что истинное среднее значение меняется от эксперимента к эксперименту», является абсолютно правильным.

Эта статья недавно обсуждалась в блоге Эндрю Гельмана ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Например, вопрос о толковании утверждения в вопросе 5 обсуждается в комментариях.

Юхо Коккала
источник
1
Итак, если кто-то вернется и заменит каждый случай «истинного среднего» на «наилучшую оценку истинного среднего», тогда станут ли утверждения правильными?
Супербест
@ Superbest Нет. Если мы рассмотрим «наилучшую оценку с учетом этих данных», то это известная константа (при условии, что наилучшая оценка четко определена). Если мы рассмотрим «наилучшую оценку будущей выборки», мы не знаем, как она меняется, потому что мы не знаем истинного среднего значения.
Юхо Коккала
Это не совсем опровержение вышеприведенному комментарию, но я должен отметить, что действительно «наилучшая оценка» подразумевает фактическое число, а не распределение. С КИ, возможно, можно было бы говорить о «распределении истинного среднего значения с учетом этих данных».
Супербест
1
@ Super Это именно неправильное понимание CI, рассматриваемое в статье. В частности, истинное среднее - это число ; у него нет распространения. Посмотрите первые два попадания на сайте для поиска доверительного интервала для дальнейшего обсуждения.
whuber
1
@super, "вероятный интервал" будет близок.
whuber
8

Без какого-либо формального определения того, что значит быть «на 95% уверенным», есть ли какое-либо оправдание для обозначения № 5 истинным или ложным? Непрофессионал, несомненно, неверно истолковал бы его как синоним вероятности 95% среднего значения в этом интервале: но некоторые люди используют его в смысле использования метода генерации интервалов, интервалы которого содержат истинное среднее значение 95% времени, точно, чтобы не говорить о распределении вероятностей неизвестного параметра; что кажется достаточно естественным продолжением терминологии.

Подобная структура предыдущего утверждения (# 4), возможно, побудила респондентов попытаться провести различие между «мы можем быть уверены на 95%» и «существует вероятность 95%», даже если они не развлекали идею раньше. Я ожидал, что эта хитрость приведет к тому, что № 5 получит самую высокую долю согласия - просмотрев документ, я обнаружил, что был неправ, но заметил, что по крайней мере 80% читают вопросник в голландской версии, что, возможно, должно вызывать вопросы о Актуальность английского перевода.

Scortchi - Восстановить Монику
источник
4

Вот определение доверительного интервала из словаря статистики Б.С. Эверитта :

«Диапазон значений, рассчитанных по выборочным наблюдениям, которые, как полагают, с определенной вероятностью содержат истинное значение параметра. Например, 95% ДИ подразумевает, что процесс оценки повторялся снова и снова, затем 95% ожидается, что рассчитанные интервалы будут содержать истинное значение параметра. Обратите внимание, что указанный уровень вероятности относится к свойствам интервала, а не к самому параметру, который не считается случайной величиной ».

Очень распространенное заблуждение - путать значение доверительного интервала со значением вероятного интервала , АКА «Байесовский доверительный интервал», который делает утверждения, аналогичные тем, которые содержатся в вопросах.

Я слышал, что доверительные интервалы часто похожи на достоверные интервалы, которые были получены из неинформативного априора, но об этом мне рассказывали анекдотично (хотя парень, которого я очень уважаю), и у меня нет подробностей или цитат.

Питер Флом - Восстановить Монику
источник
Jaynes 1976 бумаги доверительные интервалы против байесовских интервалов. Это по крайней мере один надежный источник. Есть также эталонные приоры Бергера и Бернардо. Серьезно, вы никогда не слышали об этом?
вероятностная
2

Что касается интуиции о лживости вопроса 5, я получаю следующую дискуссию по этой теме здесь

Правильно сказать, что с вероятностью 95% рассчитанный вами доверительный интервал содержит истинное среднее значение по населению. Не совсем правильно говорить, что существует 95% вероятность того, что среднее значение для населения находится в пределах интервала.

Какая разница? Среднее значение имеет одно значение. Вы не знаете, что это такое (если вы не делаете симуляции), но у него есть одно значение. Если вы повторите эксперимент, это значение не изменится (и вы все равно не будете знать, что это такое). Поэтому не совсем корректно спрашивать о вероятности того, что численность населения находится в определенном диапазоне. Напротив, доверительный интервал, который вы вычисляете, зависит от данных, которые вы собрали. Если вы повторите эксперимент, ваш доверительный интервал почти наверняка будет другим. Так что можно спросить о вероятности того, что интервал содержит среднее значение по населению.

Теперь к вашим конкретным вопросам о 5. Почему это неправильно ...

  1. Это потому, что у нас может быть какая-то особая информация о выборке, которую мы только что взяли, которая заставляет нас думать, что это, вероятно, один из 5%, который не содержит истинного среднего значения? Нет, скорее, я думаю, это потому, что истинное среднее значение не является случайной величиной, а доверительный интервал является функцией данных.
  2. 100(1α)100(1α)

Как примечание (упомянутое в других ответах на этот вопрос), достоверный интервал , концепция из байесовской статистики, предсказывает, что истинное значение параметра имеет определенную вероятность нахождения в доверительном интервале с учетом фактически полученных данных. Возможно, вы можете получить дополнительную информацию об этом из блога Гельмана.

Deathkill14
источник
5
«Интервал содержит истинное значение» и «истинное значение лежит в интервале» означают одно и то же. Более полезно думать в терминах первого, но на самом деле не имеет смысла говорить, что одно правильно, а другое неправильно.
Дэвид Ричерби