Что доверительные интервалы говорят о точности (если что-нибудь)?

31

Морей и др. (2015) утверждают, что доверительные интервалы вводят в заблуждение, и существует много предубеждений, связанных с их пониманием. Среди прочего, они описывают ошибку точности следующим образом:

Ошибка точности
Ширина доверительного интервала указывает на точность наших знаний о параметре. Узкие доверительные интервалы показывают точное знание, в то время как большие доверительные ошибки показывают неточные знания.

Не существует необходимой связи между точностью оценки и размером доверительного интервала. Один из способов увидеть это - представить, что два исследователя - старший научный сотрудник и аспирант - анализируют данные участников эксперимента. В качестве упражнения для выгоды аспиранта старший исследователь решает случайным образом разделить участников на два набора по чтобы каждый из них мог отдельно анализировать половину набора данных. В одном из последующих заседаний, два поделиться друг с другом их Ученические доверительные интервалы для среднего значения. КИ аспиранта составляет , а КИ старшего научного сотрудника - .25 т 95 % 52 ± 2 95 % 53 ± 45025t95%52±295%53±4

Старший исследователь отмечает, что их результаты в целом согласуются, и что они могут использовать одинаково взвешенное среднее их двух соответствующих точечных оценок, , в качестве общей оценки истинного среднего.52.5

Аспирант, однако, утверждает, что их два средства не должны быть равномерно взвешены: она отмечает, что ее КИ вдвое меньше, и утверждает, что ее оценка является более точной и, следовательно, должна быть взвешена более тяжело. Ее советник отмечает, что это не может быть правильным, потому что оценка от неравномерного взвешивания двух средних будет отличаться от оценки от анализа полного набора данных, который должен быть . Ошибка аспиранта заключается в том, что КИ напрямую указывают на точность данных.52.5

Пример выше, кажется, вводит в заблуждение. Если мы случайным образом разделим выборку пополам на две выборки, то мы ожидаем, что средние значения выборки и стандартные ошибки будут близки. В таком случае не должно быть никакой разницы между использованием взвешенного среднего (например, взвешенного по обратным ошибкам) ​​и использованием простого среднего арифметического. Однако, если оценки отличаются и ошибки в одной из выборок заметно больше, это может указывать на «проблемы» с такой выборкой.

Очевидно, что в приведенном выше примере размеры выборки одинаковы, поэтому «объединение» данных с использованием среднего значения равнозначно взятию среднего значения для всей выборки. Проблема состоит в том, что весь пример следует плохо определенной логике: сначала выборка делится на части, а затем снова соединяется для окончательной оценки.

Пример можно перефразировать, чтобы привести к совершенно противоположному выводу:

Исследователь и студент решили разделить свой набор данных на две половины и проанализировать их самостоятельно. После этого они сравнили свои оценки, и оказалось, что выборка означает, что их расчеты были очень разными, более того, стандартная ошибка оценки студента была намного выше. Студент боялся, что это может указывать на проблемы с точностью его оценки, но исследователь подразумевал, что нет никакой связи между доверительными интервалами и точностью, поэтому обе оценки одинаково заслуживают доверия, и они могут опубликовать любую из них, выбранную случайным образом, как их окончательная оценка.

Говоря более формально, «стандартные» доверительные интервалы, такие как Стьюдента , основаны на ошибкахt

x¯±c×SE(x)

где некоторая постоянная. В таком случае они напрямую связаны с точностью, не так ли?c

Итак, мой вопрос: является
ли ошибка точности действительно ошибкой? Что говорят о точности доверительные интервалы?


Морей Р., Хукстра Р., Роудер Дж., Ли М. и Вагенмакерс Э.-Дж. (2015). Ошибка уверенности в доверительных интервалах. Psychonomic Bulletin & Review, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/

Тим
источник
2
Я полагаю, если точность определена как обратная величина дисперсии, то ширина этих CI отражает только оценку точности. Так же, как ширина байесовского вероятного интервала для среднего будет отражать неопределенность в отношении точности.
Scortchi - Восстановить Монику
@ Scortchi, тогда это еще один способ сказать, что методы часто используются ненадежно в целом ..?
Тим
7
Я бы сказал, что это красная сельдь. Я просто смоделировал 10000 экспериментов, в каждом из которых было отобрано 50 образцов с нормальным распределением со средним значением 52,5 и SD 7,5 (так что SE выборок размером 25 будет примерно , получая CI±3). Затем я разделил эти образцы на две части и проверил, как часто CI отличаются на 2 и более. Это произошло только в 6 из 10 000 случаев. Любой, кто наблюдает за такими разными КИ, скорее всего, заподозрит, что что-то сломалось при отборе выборки. 7.5/25=5±3
С. Коласса - Восстановить Монику
@StephanKolassa Я сделал точно такую ​​же симуляцию, которая привела к точно таким же выводам - ​​вот как возник вопрос :)
Тим
2
@ Тим: Я действительно не знаю, к чему они стремятся: если истинная точность оценки среднего значения рассматривается как функция от неизвестного значения параметра, общего для двух подвыборок, то я Не думайте, что кто-то будет против того, чтобы признать, что разница в ширине этих двух КИ, следовательно, не отражает разницу в точности оценок (если они не сомневались в процедуре подвыборки). Принимая во внимание свойства покрытия КИ, зависящие от наблюдаемого коэффициента вариации, возможно, была бы лучшая тактика.
Scortchi - Восстановить Монику

Ответы:

16

В статье мы на самом деле демонстрируем ошибку точности несколькими способами. Тот, о котором вы спрашиваете - первый в статье - Этот пример призван продемонстрировать, что упрощенная «CI = точность» неверна. Это не означает, что любой компетентный частый, байесовский или правдоподобный человек будет смущен этим.

Вот еще один способ увидеть, что происходит: если бы нам только сказали CI, мы бы все равно не смогли бы объединить информацию в примерах; мы должны были бы знать , , и от этого мы могли бы разложить КУ в ˉ х и х 2 , и , таким образом , объединить два образца должным образом. Причина, по которой мы должны это сделать, заключается в том, что информация в КИ незначительна по сравнению с параметром помех. Нужно учитывать, что оба образца содержат информацию об одном и том же параметре неприятности. Это включает в себя вычисление обоих значений s 2 , объединение их для получения общей оценки σ 2 , а затем вычисление нового CI.Nx¯s2s2σ2

Что касается других демонстраций ошибки точности, см.

  • множественные КИ в секции Уэлча (1939) (подводная лодка), один из которых включает в себя «тривиальный» КИ, упомянутый @dsaxton выше. В этом примере оптимальный CI не отслеживает ширину вероятности, и есть несколько других примеров CI, которые тоже этого не делают.
  • Тот факт, что CI - даже «хорошие» CI могут быть пустыми, «ложно» указывает на бесконечную точность

Ответ на эту загадку заключается в том, что «точность», по крайней мере, в том, что думают сторонники CI (постэкспериментальная оценка того, насколько «близка» оценка к параметру), просто не является характеристикой, которую имеют доверительные интервалы в целом. и они не должны были. Особые доверительные процедуры могут ... или нет.

Смотрите также обсуждение здесь: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591

richarddmorey
источник
7
(+1) Приятно слышать от настоящего автора! Я согласен с тем, что у КИ есть несколько философских проблем, как и ВСЕХ форм вывода (только разные вопросы) ... Мне нравится, как вы указали, что вам нужно рассмотреть конкретную процедуру доверия, а не только то, что это КИ в такой ситуации. и такой уровень.
4
(+1) Спасибо за ваш ответ! Я согласен с аргументами, которые вы указали в своей статье, что КИ не должны ничего говорить о точности, однако, если назвать это заблуждением, создается впечатление, что вы указываете, что они ничего не говорят о точности - и это не то же самое ... Более того: по вашему мнению, это «ошибка точности» - проблема анализа реальной жизни? Я согласен, что неверная интерпретация КИ есть, но в этом случае я не так уверен ...
Тим
2
«Реальное» влияние сложно измерить количественно, особенно если говорить о влиянии в конкретном сценарии анализа или по всей области. Для простого вычисления КИ по гауссовскому среднему значению ошибка не слишком опасна. Но рассмотрим список цитат на стр. 117 (пункт начинается «Как часто будет проходить процедура доверия Штейгера ...»). Интервалы в этих опубликованных статьях, вероятно, "слишком" узки. Ошибочность имеет другие последствия: отсутствие тщательности на генераторах новых процедур CI (проверить любой документ с новым CI), нежелание аналитиков двигаться прочь от гауссовских допущений при необходимости, и других.
Ричарддмори
Я восхищен этими паратезами. Что это за "подводная лодка"?
Супербест
1
θ
13

Прежде всего, давайте ограничимся процедурами КИ, которые производят только интервалы со строго положительной, конечной шириной (чтобы избежать патологических случаев).

В этом случае теоретически может быть продемонстрирована связь между точностью и шириной КИ. Возьмите оценку для среднего (когда оно существует). Если ваш КИ для среднего значения очень узок, то у вас есть две интерпретации: либо вам не повезло, либо ваша выборка была слишком сильно сгруппирована (априорная вероятность этого 5%), либо ваш интервал покрывает истинное среднее значение (95% априорный шанс). Конечно, наблюдаемый КИ может быть одним из этих двух, но мы настроили наш расчет таким образом, чтобы последний имел гораздо более высокую вероятность (т. Е. Вероятность 95% априори) ... следовательно, мы имеем высокую степень из довериячто наш интервал покрывает среднее значение, потому что мы настраиваем вещи вероятностно, так что это так. Таким образом, 95% -й доверительный интервал - это не интервал вероятности (например, байесовский доверительный интервал), а скорее «доверенный советник» ... тот, кто, по статистике, прав в 95% случаев, поэтому мы доверяем его ответам, даже если любой конкретный ответ вполне может быть неправильным.

В 95% случаев, когда он охватывает действительный параметр, то ширина говорит вам что-то о диапазоне вероятных значений для данных (т. Е. Насколько хорошо вы можете связать истинное значение), следовательно, она действует как мера точности , В 5% случаев, когда это не так, CI вводит в заблуждение (поскольку образец вводит в заблуждение).

Итак, действительно ли ширина 95% CI указывает на точность ... Я бы сказал, что есть 95% шанс (если ваша ширина CI положительно-конечна) ;-)

Что такое разумный КИ?

В ответ на первоначальное авторское сообщение я пересмотрел свой ответ, чтобы (а) учесть, что пример «разделенного образца» имел очень конкретную цель, и (б) предоставить дополнительную справочную информацию в соответствии с требованием комментатора:

В идеальном (частом) мире все распределения выборки допускают основную статистику, которую мы могли бы использовать для получения точных доверительных интервалов. Что хорошего в основной статистике? Их распределение можно получить, не зная действительного значения оцениваемого параметра! В этих хороших случаях у нас есть точное распределение нашей выборочной статистики относительно истинного параметра (хотя это может быть не гауссово) об этом параметре.

Короче говоря: мы знаем распределение ошибок (или некоторые их преобразования).

Именно это качество некоторых оценок позволяет нам формировать разумные доверительные интервалы. Эти интервалы не только удовлетворяют своим определениям ... они делают это в силу того, что они получены из фактического распределения ошибки оценки.

Гауссово распределение и связанная с ним статистика Z являются каноническим примером использования ключевой величины для определения точного значения CI для среднего значения. Есть и более эзотерические примеры, но это, как правило, тот, который мотивирует «теорию больших выборок», которая в основном является попыткой применить теорию, лежащую в основе гауссовых КИ, к распределениям, которые не допускают истинную основную величину. В этих случаях вы будете читать о приблизительно основных или асимптотически основных (в размере выборки) количествах или «приблизительных» доверительных интервалах ... они основаны на теории вероятности, в частности, на факте, что распределение ошибок для многих MLEs приближается к нормальному распределению.

Другой подход к созданию разумных КИ заключается в том, чтобы «инвертировать» проверку гипотезы. Идея состоит в том, что «хороший» тест (например, UMP) приведет к хорошему (читай: узкому) CI для данного уровня ошибок типа I. Они не дают точного покрытия, но обеспечивают нижнее покрытие (примечание: фактическое определение X% -CI говорит только о том, что оно должно охватывать истинный параметр как минимум X% времени).

Использование тестов гипотез напрямую не требует ключевого количества или распределения ошибок - его чувствительность зависит от чувствительности основного теста. Например, если бы у нас был тест, у которого область отклонения имела длину 0 5% времени и бесконечную длину 95% времени, мы вернулись бы туда, где мы были с КИ - но очевидно, что этот тест не зависит от данных и, следовательно, не предоставит никакой информации о тестируемом базовом параметре.

Эта более широкая идея - что оценка точности должна быть обусловлена ​​данными, восходит к Фишеру и идее вспомогательной статистики. Вы можете быть уверены, что если результат вашего теста или процедуры CI НЕ обусловлен данными (т. Е. Их условное поведение совпадает с их безусловным поведением), то у вас в руках сомнительный метод.


источник
2
Было бы здорово, если бы вы могли уточнить, что вы добавили в «Заметке». Это, я думаю, суть всей дискуссии: можно разработать очень странные, но действительные методики частых исследований для построения КИ, при которых ширина КИ не имеет отношения к какой-либо точности. Следовательно, можно утверждать, что Morey et al. делаю, что КИ введены в заблуждение в принципе. Я согласен с вами, что обычно используемые процедуры КИ более разумны, но нужно уяснить, что делает их такими.
говорит амеба: восстанови монику
@amoeba Я добавил еще несколько объяснений того, почему не все элементы конфигурации созданы равными ... основная идея - это вспомогательность, вторая - роль распределения ошибок (или приближения к нему)
Спасибо за обновление. Одна вещь , которую я до сих пор не находят очень ясно в своем ответе, что в первом абзаце вы не говорите ничего о ширине CI; Вы только говорите об этом, содержащем или не содержащем истинный параметр населения. Там все правильно даже в «патологических» случаях. Затем вы говорите, что да, ширина указывает на точность, но вы не предоставили никаких аргументов для этого (на тот момент). В последующем обсуждении вы объясните это больше, хотя.
говорит амеба: восстанови монику
@amoeba Полагаю, мой пост мог бы сделать немного больше форматирования. Основная логика такова (при условии, что мы используем «разумную» процедуру CI, как я обрисовал): существует априорная вероятность 95%, что интервал будет содержать истинный параметр. После сбора данных у нас есть фактический интервал (конечный, ненулевой ширины). Если он содержит истинный параметр, то ширина выражает диапазон вероятных значений, которыми он может быть, следовательно, ширина ограничивает диапазон параметра. ОДНАКО, в 5% случаев, когда интервал не содержит значения, интервал вводит в заблуждение.
@amoeba обновил пост, чтобы лучше подчеркнуть связь между шириной CI и точностью.
8

{x1,x2,,xn}(μ,σ2)μ(,){0}основанный на подбрасывании предвзятой монеты. Используя правильное смещение, мы можем получить любой уровень достоверности, который нам нравится, но очевидно, что наша «оценка» интервала не имеет никакой точности, даже если мы в итоге получим интервал с нулевой шириной.

Причина , почему я не думаю , что мы должны заботиться об этом очевидном заблуждении, что , хотя это правда , что нет никакой необходимой связи между шириной доверительного интервала и точностью, то есть почти универсальная связь между стандартными ошибками и точностью, и в В большинстве случаев ширина доверительного интервала пропорциональна стандартной ошибке.

σ

dsaxton
источник
Хорошие замечания о случайно бесконечных КИ ... определенно показывают, что доверие - это понятие, отличное от точности. Вероятно, мне следовало бы объяснить свой ответ, сказав, что я предполагаю КИ, основанный на вероятности, где ширина связана с кривизной логарифмического правдоподобия, что является приблизительной величиной стандартной ошибки ... Ваше сообщение указывает на то, что есть КИ, которые технически достигают освещение, но в очень противоречивой форме.
Связанная проблема (хотя и очень интересная) связана с соответствующими подмножествами для CI ... например, если вы включите вспомогательную статистику, ваше покрытие CI может измениться (в данном случае условное покрытие t-интервала изменения в зависимости от изменчивости вашего образца). Вот ссылка на статью: jstor.org/stable/2242024?seq=1#page_scan_tab_contents
@Bey Есть еще один менее экстремальный пример из этой статьи, касающийся подводной лодки: webfiles.uci.edu/mdlee/fundamentalError.pdf . Это интересный вопрос, но, опять же, похоже, это интерпретация, которую не сделает ни один умный человек.
dsaxton
Согласен .... не могу оставить здравый смысл за дверью со статистикой ... даже в машинном обучении (что-то не так)
1
@ Richarddmorey: Хорошо, я вижу. Тогда это была просто неудачная формулировка! Я не вынул это из контекста нарочно; Я честно читаю это предложение как краткое изложение и обобщение для любой ситуации (не осознавая, что «в этом примере» предполагалось в этом предложении). Подумайте о том, чтобы оставить разъясняющий комментарий в другой ветке с моим обвинением (которое уже получило некоторые отклики).
говорит амеба: восстанови монику
4

Я думаю, что очевидное различие между «доверительными интервалами» и «точностью» (см. Ответ от @dsaxton) важно, потому что это различие указывает на проблемы в общем использовании обоих терминов.

Цитата из Википедии :

Точность измерительной системы, связанная с воспроизводимостью и повторяемостью, представляет собой степень, в которой повторные измерения при неизменных условиях показывают одинаковые результаты.

Таким образом, можно утверждать, что частые доверительные интервалы действительно представляют собой тип точности схемы измерения . Если один повторяет ту же схему, 95% ДИ, рассчитанный для каждого повторения, будет содержать одно истинное значение параметра в 95% повторений.

Это, однако, не то, что многие люди хотят от практической меры точности. Они хотят знать, насколько близко измеренное значение к истинному значению . Частые доверительные интервалы не обеспечивают такой точности. Байесовские заслуживающие доверия регионы делают.

Некоторая путаница заключается в том, что в практических примерах частые доверительные интервалы и байесовские заслуживающие доверия регионы «более или менее пересекаются» . Выборка из нормального распределения, как в некоторых комментариях к OP, является таким примером. Это также может иметь место на практике для некоторых более широких типов анализа, которые @Bey имел в виду, основываясь на приближении к стандартным ошибкам в процессах с нормальным распределением в пределе.

Если вы знаете, что находитесь в такой ситуации , то не может быть никакой практической опасности при интерпретации конкретного 95% -ного ДИ из единой реализации схемы измерения как с вероятностью 95%, содержащей истинное значение. Эта интерпретация доверительных интервалов, однако, не из статистики по частоте, для которой истинное значение либо находится, либо не входит в этот конкретный интервал.

Если доверительные интервалы и достоверные регионы заметно различаются, эта байесовская интерпретация частых доверительных интервалов может вводить в заблуждение или ошибаться, как демонстрируется в статье, приведенной выше, и в более ранней литературе, на которую делается ссылка Да, «здравый смысл» может помочь избежать таких неправильных толкований, но, по моему опыту, «здравый смысл» не так распространен.

Другие страницы CrossValidated содержат гораздо больше информации о доверительных интервалах и различиях между доверительными интервалами и вероятными регионами . Ссылки с этих страниц также очень информативны.

магистр педагогических наук
источник
Это хороший момент ... Я думаю, что наиболее близкая мысль к общему толкованию "точности" больше похожа на среднеквадратичную ошибку. Несмещенная, но сильно изменяющаяся оценка рассматривается не лучше, чем оценка с низкой вариабельностью, но с высокой степенью смещенности ... нельзя полагаться на то, чтобы дать оценку, близкую к истинному значению.
+1, но я не уверен, что разделяю ваш пессимистический взгляд на «здравый смысл». Существует большая цитата из Джеффриза о «здравом смысле» в статистике частотной: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
говорит амеба: восстанови Монику
@amoeba рассмотрим утверждение Лапласа о том, что «теория вероятностей есть не что иное, как здравый смысл, сводимый к расчетам». Усилия, посвященные с тех пор теории вероятностей, по крайней мере показывают, что последствия здравого смысла не всегда очевидны.
EdM
@amoeba: Фишер отклонил CI и идентифицировал Фишера как частого. вводит в заблуждение. Его логика интервалов (опорных) была похожа на obj. Байес, и он отождествляет вероятность с рациональной неопределенностью. Он говорит следующее: «Иногда утверждают, что метод доверительного управления обычно приводит к тем же результатам, что и метод [КИ]. Трудно понять, как это может быть, поскольку твердо установлено, что метод доверия интервалы не приводят к вероятностным утверждениям о параметрах реального мира, тогда как для этой цели существует опорный аргумент ". (Фишер, 1959)
Ричарддморей
@ Richard, спасибо за разъяснения. Известно, что Фишер на протяжении своей долгой карьеры говорил противоречивые вещи и несколько раз менял свое мнение. Я не очень знаком с его доверительной теории так не могу комментировать. Мое бессознательное предположение состояло в том, что Джеффрис в той цитате имел в виду «периодический период» Фишера, но у меня нет никаких доказательств этого. По моему (ограниченному!) Опыту, никто никогда не использует фидуциальный вывод. Никто. Когда-либо. Принимая во внимание, что часто используемые методы используются постоянно, и многие возвращаются к Фишеру. Отсюда и ассоциации, существующие в моем уме.
говорит амеба: восстанови монику
1

У @Bey есть это. Не существует необходимой связи между показателями и производительностью, ни ценой, ни качеством, ни запахом, ни вкусом. И все же один обычно сообщает о другом.

По индукции можно доказать, что нельзя дать поп-викторину. При ближайшем рассмотрении это означает, что нельзя гарантировать, что викторина является сюрпризом. И все же большую часть времени это будет.

Похоже, что Мори и др. Показывают, что существуют случаи, когда ширина является неинформативной. Хотя этого достаточно, чтобы утверждать, что «нет никакой необходимой связи между точностью оценки и размером доверительного интервала», недостаточно сделать дополнительный вывод о том, что элементы конфигурации обычно не содержат информации о точности. Просто, что они не гарантированы, чтобы сделать это.

(Недостаточно очков для ответа + @ Бей.)

ctwardy
источник