Морей и др. (2015) утверждают, что доверительные интервалы вводят в заблуждение, и существует много предубеждений, связанных с их пониманием. Среди прочего, они описывают ошибку точности следующим образом:
Ошибка точности
Ширина доверительного интервала указывает на точность наших знаний о параметре. Узкие доверительные интервалы показывают точное знание, в то время как большие доверительные ошибки показывают неточные знания.Не существует необходимой связи между точностью оценки и размером доверительного интервала. Один из способов увидеть это - представить, что два исследователя - старший научный сотрудник и аспирант - анализируют данные участников эксперимента. В качестве упражнения для выгоды аспиранта старший исследователь решает случайным образом разделить участников на два набора по чтобы каждый из них мог отдельно анализировать половину набора данных. В одном из последующих заседаний, два поделиться друг с другом их Ученические доверительные интервалы для среднего значения. КИ аспиранта составляет , а КИ старшего научного сотрудника - .25 т 95 % 52 ± 2 95 % 53 ± 4
Старший исследователь отмечает, что их результаты в целом согласуются, и что они могут использовать одинаково взвешенное среднее их двух соответствующих точечных оценок, , в качестве общей оценки истинного среднего.
Аспирант, однако, утверждает, что их два средства не должны быть равномерно взвешены: она отмечает, что ее КИ вдвое меньше, и утверждает, что ее оценка является более точной и, следовательно, должна быть взвешена более тяжело. Ее советник отмечает, что это не может быть правильным, потому что оценка от неравномерного взвешивания двух средних будет отличаться от оценки от анализа полного набора данных, который должен быть . Ошибка аспиранта заключается в том, что КИ напрямую указывают на точность данных.
Пример выше, кажется, вводит в заблуждение. Если мы случайным образом разделим выборку пополам на две выборки, то мы ожидаем, что средние значения выборки и стандартные ошибки будут близки. В таком случае не должно быть никакой разницы между использованием взвешенного среднего (например, взвешенного по обратным ошибкам) и использованием простого среднего арифметического. Однако, если оценки отличаются и ошибки в одной из выборок заметно больше, это может указывать на «проблемы» с такой выборкой.
Очевидно, что в приведенном выше примере размеры выборки одинаковы, поэтому «объединение» данных с использованием среднего значения равнозначно взятию среднего значения для всей выборки. Проблема состоит в том, что весь пример следует плохо определенной логике: сначала выборка делится на части, а затем снова соединяется для окончательной оценки.
Пример можно перефразировать, чтобы привести к совершенно противоположному выводу:
Исследователь и студент решили разделить свой набор данных на две половины и проанализировать их самостоятельно. После этого они сравнили свои оценки, и оказалось, что выборка означает, что их расчеты были очень разными, более того, стандартная ошибка оценки студента была намного выше. Студент боялся, что это может указывать на проблемы с точностью его оценки, но исследователь подразумевал, что нет никакой связи между доверительными интервалами и точностью, поэтому обе оценки одинаково заслуживают доверия, и они могут опубликовать любую из них, выбранную случайным образом, как их окончательная оценка.
Говоря более формально, «стандартные» доверительные интервалы, такие как Стьюдента , основаны на ошибках
где некоторая постоянная. В таком случае они напрямую связаны с точностью, не так ли?
Итак, мой вопрос: является
ли ошибка точности действительно ошибкой? Что говорят о точности доверительные интервалы?
Морей Р., Хукстра Р., Роудер Дж., Ли М. и Вагенмакерс Э.-Дж. (2015). Ошибка уверенности в доверительных интервалах. Psychonomic Bulletin & Review, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Ответы:
В статье мы на самом деле демонстрируем ошибку точности несколькими способами. Тот, о котором вы спрашиваете - первый в статье - Этот пример призван продемонстрировать, что упрощенная «CI = точность» неверна. Это не означает, что любой компетентный частый, байесовский или правдоподобный человек будет смущен этим.
Вот еще один способ увидеть, что происходит: если бы нам только сказали CI, мы бы все равно не смогли бы объединить информацию в примерах; мы должны были бы знать , , и от этого мы могли бы разложить КУ в ˉ х и х 2 , и , таким образом , объединить два образца должным образом. Причина, по которой мы должны это сделать, заключается в том, что информация в КИ незначительна по сравнению с параметром помех. Нужно учитывать, что оба образца содержат информацию об одном и том же параметре неприятности. Это включает в себя вычисление обоих значений s 2 , объединение их для получения общей оценки σ 2 , а затем вычисление нового CI.N Икс¯ s2 s2 σ2
Что касается других демонстраций ошибки точности, см.
Ответ на эту загадку заключается в том, что «точность», по крайней мере, в том, что думают сторонники CI (постэкспериментальная оценка того, насколько «близка» оценка к параметру), просто не является характеристикой, которую имеют доверительные интервалы в целом. и они не должны были. Особые доверительные процедуры могут ... или нет.
Смотрите также обсуждение здесь: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
источник
Прежде всего, давайте ограничимся процедурами КИ, которые производят только интервалы со строго положительной, конечной шириной (чтобы избежать патологических случаев).
В этом случае теоретически может быть продемонстрирована связь между точностью и шириной КИ. Возьмите оценку для среднего (когда оно существует). Если ваш КИ для среднего значения очень узок, то у вас есть две интерпретации: либо вам не повезло, либо ваша выборка была слишком сильно сгруппирована (априорная вероятность этого 5%), либо ваш интервал покрывает истинное среднее значение (95% априорный шанс). Конечно, наблюдаемый КИ может быть одним из этих двух, но мы настроили наш расчет таким образом, чтобы последний имел гораздо более высокую вероятность (т. Е. Вероятность 95% априори) ... следовательно, мы имеем высокую степень из довериячто наш интервал покрывает среднее значение, потому что мы настраиваем вещи вероятностно, так что это так. Таким образом, 95% -й доверительный интервал - это не интервал вероятности (например, байесовский доверительный интервал), а скорее «доверенный советник» ... тот, кто, по статистике, прав в 95% случаев, поэтому мы доверяем его ответам, даже если любой конкретный ответ вполне может быть неправильным.
В 95% случаев, когда он охватывает действительный параметр, то ширина говорит вам что-то о диапазоне вероятных значений для данных (т. Е. Насколько хорошо вы можете связать истинное значение), следовательно, она действует как мера точности , В 5% случаев, когда это не так, CI вводит в заблуждение (поскольку образец вводит в заблуждение).
Итак, действительно ли ширина 95% CI указывает на точность ... Я бы сказал, что есть 95% шанс (если ваша ширина CI положительно-конечна) ;-)
Что такое разумный КИ?
В ответ на первоначальное авторское сообщение я пересмотрел свой ответ, чтобы (а) учесть, что пример «разделенного образца» имел очень конкретную цель, и (б) предоставить дополнительную справочную информацию в соответствии с требованием комментатора:
В идеальном (частом) мире все распределения выборки допускают основную статистику, которую мы могли бы использовать для получения точных доверительных интервалов. Что хорошего в основной статистике? Их распределение можно получить, не зная действительного значения оцениваемого параметра! В этих хороших случаях у нас есть точное распределение нашей выборочной статистики относительно истинного параметра (хотя это может быть не гауссово) об этом параметре.
Короче говоря: мы знаем распределение ошибок (или некоторые их преобразования).
Именно это качество некоторых оценок позволяет нам формировать разумные доверительные интервалы. Эти интервалы не только удовлетворяют своим определениям ... они делают это в силу того, что они получены из фактического распределения ошибки оценки.
Гауссово распределение и связанная с ним статистика Z являются каноническим примером использования ключевой величины для определения точного значения CI для среднего значения. Есть и более эзотерические примеры, но это, как правило, тот, который мотивирует «теорию больших выборок», которая в основном является попыткой применить теорию, лежащую в основе гауссовых КИ, к распределениям, которые не допускают истинную основную величину. В этих случаях вы будете читать о приблизительно основных или асимптотически основных (в размере выборки) количествах или «приблизительных» доверительных интервалах ... они основаны на теории вероятности, в частности, на факте, что распределение ошибок для многих MLEs приближается к нормальному распределению.
Другой подход к созданию разумных КИ заключается в том, чтобы «инвертировать» проверку гипотезы. Идея состоит в том, что «хороший» тест (например, UMP) приведет к хорошему (читай: узкому) CI для данного уровня ошибок типа I. Они не дают точного покрытия, но обеспечивают нижнее покрытие (примечание: фактическое определение X% -CI говорит только о том, что оно должно охватывать истинный параметр как минимум X% времени).
Использование тестов гипотез напрямую не требует ключевого количества или распределения ошибок - его чувствительность зависит от чувствительности основного теста. Например, если бы у нас был тест, у которого область отклонения имела длину 0 5% времени и бесконечную длину 95% времени, мы вернулись бы туда, где мы были с КИ - но очевидно, что этот тест не зависит от данных и, следовательно, не предоставит никакой информации о тестируемом базовом параметре.
Эта более широкая идея - что оценка точности должна быть обусловлена данными, восходит к Фишеру и идее вспомогательной статистики. Вы можете быть уверены, что если результат вашего теста или процедуры CI НЕ обусловлен данными (т. Е. Их условное поведение совпадает с их безусловным поведением), то у вас в руках сомнительный метод.
источник
Причина , почему я не думаю , что мы должны заботиться об этом очевидном заблуждении, что , хотя это правда , что нет никакой необходимой связи между шириной доверительного интервала и точностью, то есть почти универсальная связь между стандартными ошибками и точностью, и в В большинстве случаев ширина доверительного интервала пропорциональна стандартной ошибке.
источник
Я думаю, что очевидное различие между «доверительными интервалами» и «точностью» (см. Ответ от @dsaxton) важно, потому что это различие указывает на проблемы в общем использовании обоих терминов.
Цитата из Википедии :
Таким образом, можно утверждать, что частые доверительные интервалы действительно представляют собой тип точности схемы измерения . Если один повторяет ту же схему, 95% ДИ, рассчитанный для каждого повторения, будет содержать одно истинное значение параметра в 95% повторений.
Это, однако, не то, что многие люди хотят от практической меры точности. Они хотят знать, насколько близко измеренное значение к истинному значению . Частые доверительные интервалы не обеспечивают такой точности. Байесовские заслуживающие доверия регионы делают.
Некоторая путаница заключается в том, что в практических примерах частые доверительные интервалы и байесовские заслуживающие доверия регионы «более или менее пересекаются» . Выборка из нормального распределения, как в некоторых комментариях к OP, является таким примером. Это также может иметь место на практике для некоторых более широких типов анализа, которые @Bey имел в виду, основываясь на приближении к стандартным ошибкам в процессах с нормальным распределением в пределе.
Если вы знаете, что находитесь в такой ситуации , то не может быть никакой практической опасности при интерпретации конкретного 95% -ного ДИ из единой реализации схемы измерения как с вероятностью 95%, содержащей истинное значение. Эта интерпретация доверительных интервалов, однако, не из статистики по частоте, для которой истинное значение либо находится, либо не входит в этот конкретный интервал.
Если доверительные интервалы и достоверные регионы заметно различаются, эта байесовская интерпретация частых доверительных интервалов может вводить в заблуждение или ошибаться, как демонстрируется в статье, приведенной выше, и в более ранней литературе, на которую делается ссылка Да, «здравый смысл» может помочь избежать таких неправильных толкований, но, по моему опыту, «здравый смысл» не так распространен.
Другие страницы CrossValidated содержат гораздо больше информации о доверительных интервалах и различиях между доверительными интервалами и вероятными регионами . Ссылки с этих страниц также очень информативны.
источник
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.У @Bey есть это. Не существует необходимой связи между показателями и производительностью, ни ценой, ни качеством, ни запахом, ни вкусом. И все же один обычно сообщает о другом.
По индукции можно доказать, что нельзя дать поп-викторину. При ближайшем рассмотрении это означает, что нельзя гарантировать, что викторина является сюрпризом. И все же большую часть времени это будет.
Похоже, что Мори и др. Показывают, что существуют случаи, когда ширина является неинформативной. Хотя этого достаточно, чтобы утверждать, что «нет никакой необходимой связи между точностью оценки и размером доверительного интервала», недостаточно сделать дополнительный вывод о том, что элементы конфигурации обычно не содержат информации о точности. Просто, что они не гарантированы, чтобы сделать это.
(Недостаточно очков для ответа + @ Бей.)
источник