Я читал статью Hoekstra et al 2014 года «Надежное неверное истолкование доверительных интервалов», которую я скачал с сайта Wagenmakers .
На предпоследней странице появляется следующее изображение.
По мнению авторов, Ложь является правильным ответом на все эти утверждения. Я не очень уверен, почему заявления ложны, и, насколько я могу судить, остальная часть статьи не пытается объяснить это.
Я считаю, что 1-2 и 4 не верны, потому что они утверждают что-то о вероятном значении истинного среднего, когда истинное среднее имеет определенное значение, которое неизвестно. Это убедительное различие?
Что касается 3, я понимаю, что никто не должен утверждать о вероятности того, что нулевая гипотеза неверна, хотя я не очень уверен в причине этого.
Точно так же 6 не может быть правдой, потому что это означает, что истинное среднее значение меняется от эксперимента к эксперименту.
То, чего я действительно не понимаю, - это 5. Почему это неправильно? Если у меня есть процесс, который в 95% случаев производит КИ, которые содержат истинное среднее значение, почему я не должен сказать, что у меня 95% уверенности, что значение популяции составляет от 0,1 до 0,4? Это потому, что у нас может быть какая-то особая информация о выборке, которую мы только что взяли, которая заставляет нас думать, что это, вероятно, один из 5%, который не содержит истинного среднего значения? Например, 0,13 входит в доверительный интервал и по какой-то причине 0,13 не считается вероятным значением в некотором конкретном контексте исследования, например, потому что это значение будет противоречить предыдущей теории.
Что значит доверие в этом контексте?
источник
Ответы:
Само значение вопроса (5) зависит от некоторой нераскрытой интерпретации «уверенности». Я тщательно обыскал газету и не нашел попыток определить «доверие» или то, что это может означать в этом контексте. В статье дан ответ на вопрос (5):
Это и обманчиво, и вводит в заблуждение. Во-первых, если вы не можете оценить результат процедуры, то какая польза от этой процедуры? Во-вторых, утверждение в вопросе не о процедуре, а о «уверенности» читателя в ее результатах.
Авторы защищают себя:
Их предвзятость проявляется в последней фразе: «техника для частых» (написанная, возможно, с неявной насмешкой). Хотя эта характеристика верна, она критически неполна. Нельзя заметить, что доверительный интервал также является свойством экспериментальных методов (как образцы были получены и измерены) и, что более важно, самой природы. Это единственная причина, почему кто-то будет заинтересован в его ценности.
Недавно я имел удовольствие читать циркулярную статистику Эдварда Батшеле в биологии (Academic Press, 1981). Батшелет пишет четко и точно, в стиле, направленном на работающего ученого. Вот что он говорит о доверительных интервалах:
[Акцент в оригинале, на стр. 84-85.]
Обратите внимание на разницу в акценте: в то время как рассматриваемый документ фокусируется на процедуре, Batschelet фокусируется на выборке и, в частности, на том, что он может показать о параметре и насколько эта информация может быть затронута «случайными колебаниями». Я считаю это беззастенчиво практический, научный подход гораздо более конструктивными, освещая, и - в конечном счете - полезно.
Поэтому более полная характеристика доверительных интервалов, чем предложенная в статье, должна была бы выглядеть примерно так:
В этом более полном, более традиционном и более конструктивном смысле «уверенности» ответ на вопрос (5) является верным.
источник
Вопросы 1-2, 4: в частом анализе истинное среднее значение не является случайной величиной, поэтому вероятности не определены, тогда как в байесовском анализе вероятности будут зависеть от предыдущего.
Вопрос 3: Например, рассмотрим случай, когда мы точно знаем, что все еще возможно получить эти результаты, но довольно необоснованно говорить, что нулевая гипотеза «вряд ли» будет верной. Мы получили данные, которые вряд ли возникнут, если нулевая гипотеза верна, но это не означает, что нулевая гипотеза вряд ли верна.
Вопрос 5: Это немного сомнительно, поскольку это зависит от определения «мы можем быть уверены на p». Если мы определяем утверждение как означающее то, что выводится из p% доверительных интервалов, утверждение по определению является правильным. Типичный про-байесовский аргумент гласит, что люди склонны интуитивно интерпретировать эти утверждения, чтобы обозначить «вероятность равна p%», что было бы ложным (сравните ответы с 1-2,4).
Вопрос 6: Ваше объяснение «оно подразумевает, что истинное среднее значение меняется от эксперимента к эксперименту», является абсолютно правильным.
Эта статья недавно обсуждалась в блоге Эндрю Гельмана ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Например, вопрос о толковании утверждения в вопросе 5 обсуждается в комментариях.
источник
Без какого-либо формального определения того, что значит быть «на 95% уверенным», есть ли какое-либо оправдание для обозначения № 5 истинным или ложным? Непрофессионал, несомненно, неверно истолковал бы его как синоним вероятности 95% среднего значения в этом интервале: но некоторые люди используют его в смысле использования метода генерации интервалов, интервалы которого содержат истинное среднее значение 95% времени, точно, чтобы не говорить о распределении вероятностей неизвестного параметра; что кажется достаточно естественным продолжением терминологии.
Подобная структура предыдущего утверждения (# 4), возможно, побудила респондентов попытаться провести различие между «мы можем быть уверены на 95%» и «существует вероятность 95%», даже если они не развлекали идею раньше. Я ожидал, что эта хитрость приведет к тому, что № 5 получит самую высокую долю согласия - просмотрев документ, я обнаружил, что был неправ, но заметил, что по крайней мере 80% читают вопросник в голландской версии, что, возможно, должно вызывать вопросы о Актуальность английского перевода.
источник
Вот определение доверительного интервала из словаря статистики Б.С. Эверитта :
Очень распространенное заблуждение - путать значение доверительного интервала со значением вероятного интервала , АКА «Байесовский доверительный интервал», который делает утверждения, аналогичные тем, которые содержатся в вопросах.
Я слышал, что доверительные интервалы часто похожи на достоверные интервалы, которые были получены из неинформативного априора, но об этом мне рассказывали анекдотично (хотя парень, которого я очень уважаю), и у меня нет подробностей или цитат.
источник
Что касается интуиции о лживости вопроса 5, я получаю следующую дискуссию по этой теме здесь
Теперь к вашим конкретным вопросам о 5. Почему это неправильно ...
Как примечание (упомянутое в других ответах на этот вопрос), достоверный интервал , концепция из байесовской статистики, предсказывает, что истинное значение параметра имеет определенную вероятность нахождения в доверительном интервале с учетом фактически полученных данных. Возможно, вы можете получить дополнительную информацию об этом из блога Гельмана.
источник