Полезны ли доверительные интервалы?

11

В статистике частых случаев 95-процентный доверительный интервал является процедурой, производящей интервалы, которая, если повторяться бесконечное число раз, будет содержать истинный параметр 95% времени. Почему это полезно?

Доверительные интервалы часто неправильно понимают. Они не являются интервалом, в котором мы можем быть на 95% уверены, что параметр включен (если вы не используете аналогичный байесовский интервал достоверности). Доверительные интервалы кажутся мне приманкой.

Один из вариантов использования, который я могу придумать, заключается в предоставлении диапазона значений, для которого мы не можем отвергнуть нулевую гипотезу о том, что параметр является этим значением. Разве p-значения не предоставляют эту информацию, но лучше? Не вводя в заблуждение?

Короче говоря: зачем нам доверительные интервалы? Чем они полезны при правильной интерпретации?

purpleostrich
источник
Байесовский интервал правдоподобия не является интервалом, в котором мы можем быть на 95% уверены, что этот параметр
Sextus
@MartijnWeterings: если вы не уверены на 100% в своем предыдущем.
Сиань
@ Xi'an, который работает, когда параметр на 100% определенно обоснованно считается случайной величиной, а эксперимент подобен выборке из совместного распределения частот , т.е. вы используете правило Байеса как: без явного «априора». Это не то же самое для параметра, который считается фиксированным. Тогда последующие убеждения потребуют от вас также «обновить» старое совместное частотное распределение и . Немного абсурдно утверждать, что обновляет «предыдущие убеждения», которые были на 100% уверены. P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Секст Эмпирик

Ответы:

10

До тех пор, пока доверительный интервал рассматривается как случайный (т. Е. Рассматривается с точки зрения обработки данных как набора случайных величин, которые мы еще не видели), мы действительно можем делать полезные вероятностные заявления об этом. В частности, предположим, что у вас есть доверительный интервал на уровне для параметра , и интервал имеет границы . Тогда мы можем сказать, что:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Выход за пределы частичной парадигмы и маргинализация по для любого предшествующего распределения дает соответствующий (более слабый) результат предельной вероятности:θ

P(L(X)θU(X))=1α.

Как только мы исправим границы доверительного интервала, зафиксировав данные в , мы больше не будем обращаться к этому утверждению вероятности, потому что теперь мы исправили данные. Однако, если доверительный интервал рассматривается как случайный интервал, тогда мы действительно можем сделать это утверждение о вероятности, т. Е. С вероятностью параметр попадет в (случайный) интервал.X=x1αθ

В статистике по частоте утверждения о вероятности - это утверждения об относительных частотах в бесконечно повторяющихся испытаниях Но это относится ко всем утверждениям о вероятности в парадигме частоты, поэтому, если вы возражаете против утверждений об относительной частоте, это не является возражением, характерным для доверительных интервалов. Если мы выйдем за пределы парадигмы, основанной на частоте, то мы можем с полным основанием сказать, что доверительный интервал содержит целевой параметр с желаемой вероятностью, при условии, что мы делаем это утверждение о вероятности незначительно (т. Е. Не обуславливаем данные) и таким образом обрабатываем доверительный интервал. в его случайном смысле.

Я не знаю о других, но мне кажется, что это довольно мощный результат вероятности и разумное оправдание такой формы интервала. Я сам более неравнодушен к байесовским методам, но вероятностные результаты, основанные на доверительных интервалах (в их случайном смысле), являются мощными результатами, которые не должны быть услышаны.

Бен - Восстановить Монику
источник
1
«Выходить за пределы парадигмы часто» это не проблема? В общем, мы хотим интервал, который содержит истинное значение интересующего параметра с некоторой вероятностью. Никакой частый анализ не может дать нам этого, и косвенное толкование его как байесовского анализа приводит к недоразумениям. Лучше ответить на вопрос напрямую через байесовский достоверный интервал. Существуют способы использования доверительных интервалов, когда вы неоднократно проводите «эксперименты», например, контроль качества.
Дикран Marsupial
Это не является вопросом неявного переосмысления как байесовского (последнее будет зависеть от данных для получения апостериорного значения). Ответ просто показывает ОП, что мы можем сделать полезные вероятностные заявления о доверительном интервале. Что касается более общих возражений против частой парадигмы, то они хороши и хороши, но они не являются возражениями, характерными для доверительных интервалов.
Бен - Восстановить Монику
1
Как вы можете видеть из приведенных выше утверждений о вероятности, мы можем гарантировать, что CI содержит параметр с некоторой вероятностью, если мы посмотрим на это априори .
Бен - Восстановить Монику
1
Если вы вышли из парадигмы, основанной на частоте, но не переходите на байесовские рамки, то что это за рамки? Я не высказывал возражений против частоты, я считаю, что вы должны использовать систему, которая наиболее точно отвечает на вопрос, который вы на самом деле хотите задать. Уверенность и достоверные интервалы отвечают на разные вопросы.
Дикран Marsupial
1
@Dikran: утверждение о вероятности стоит так, как написано, и является чисто математическим утверждением. Я действительно не понимаю, как вы можете разумно возразить против этого.
Бен - Восстановить Монику
5

Я согласен с @Ben выше, и я подумал, что приведу простой пример того, где байесовский и частотный интервалы будут полезны при тех же обстоятельствах.

Представьте себе фабрику с параллельными сборочными линиями. Стоит остановить линию, и в то же время они хотят производить качественную продукцию. Они обеспокоены как ложными срабатываниями, так и ложными отрицаниями с течением времени. Для фабрики это процесс усреднения: важны как мощность, так и гарантированная защита от ложных срабатываний. Доверительные интервалы, а также допуски имеют значение для завода. Тем не менее, машины будут выровнены, то есть , а механизм обнаружения будет наблюдать ложные события. Средний результат имеет значение, в то время как конкретный результат является оперативной деталью.θΘ

На противоположной стороне этого находится один клиент, покупающий один продукт или одну партию продуктов. Они не заботятся о свойствах повторения конвейера. Они заботятся об одном продукте, который они приобрели. Давайте представим, что клиент - НАСА, и ему нужен продукт, соответствующий спецификации, скажем, Они не заботятся о качестве деталей, которые они не покупали. Им нужен байесовский интервал некоторой формы. Кроме того, один сбой может убить много космонавтов и обойтись в миллиарды долларов. Они должны знать, что каждая купленная деталь соответствует спецификациям. Усреднение было бы смертельным. Для ракеты «Сатурн-V» коэффициент дефектности в один процент подразумевал бы 10 000 дефектных деталей во время полетов Аполлона. Они требовали 0% дефектов во всех миссиях.γΓ.

Вы беспокоитесь о доверительном интервале, когда работаете в пробном пространстве, как это делает фабрика. Это создает образец пространства. Вы беспокоитесь о вероятных интервалах, когда работаете в пространстве параметров, как это делал бы клиент. Если вас не интересуют наблюдения за пределами ваших, то вы байесовец. Если вам небезразличны образцы, которые не были замечены, но могли быть просмотрены, то вы являетесь частым участником.

Вы обеспокоены долгосрочным усреднением или конкретным событием?

Дейв Харрис
источник
На самом ли деле НАСА покупает запчасти на основе байесовских интервалов? Я понимаю вашу мысль, но действительно ли они это делают?
Аксакал
@ Аксакал, я не знаю. Джуран, конечно, написал замечательную работу по обеспечению качества в НАСА, но я даже не могу вспомнить, обсуждался ли процесс тестирования, поскольку с момента его прочтения прошло уже более десяти лет. Я знаю, что У. Эдвардс Деминг был против доверительных интервалов в пользу достоверных интервалов, но опять же, это напрямую не относится. Я думаю, и я знаю людей, которые будут знать, но сейчас неудобно спрашивать, что они используют методы Frequentist, потому что это то, чему обучают большинство людей. Вы используете молоток, который у вас есть.
Дейв Харрис
Это случай с "молотком"? Может быть, это как-то связано с тем, как обстоят дела в технике?
Аксакал
@Aksakal Я не имею права высказываться по этому поводу.
Дейв Харрис
Скажем, компания изготавливает деталей, с помощью теста составной гипотезы уровня вы проверяете их на ошибки: из них проходят без ошибок, а из них - неудачно. Вы можете дать НАСА разумную гарантию. Максимальное количество продуктов, которые могут случайно пройти тест (ошибочно рассмотрено без ошибок), составляет . Зная, что вы продали предметов, вы можете рассчитать максимальную вероятность того, что проданная деталь на самом деле не соответствует альтернативной гипотезе . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Секст Эмпирик
4

Обратите внимание , что в строгом определении доверительного интервала, то есть возможно , что они совершенно бессмыслен, то есть, не информативно интересующий параметр. Однако на практике они, как правило, очень значимы.

В качестве примера бессмысленного доверительного интервала предположим, что у меня есть процедура, которую 95% времени производит , а 5% времени производит [ , ], где - любая пара случайных величин, такая что . Тогда это процедура, которая фиксирует любую вероятность, по крайней мере, в 95% случаев, поэтому технически является допустимым доверительным интервалом для любой вероятности. Тем не менее, если я скажу, что интервал, полученный с помощью этой процедуры, составлял для данного , вы должны понимать, что вы действительно ничего не узнали о .[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0,01 , 0,011 ] p pUmin<Umax[0.01,0.011]pp

С другой стороны, большинство доверительных интервалов строятся более полезным способом. Например, если я сказал вам, что он был создан с использованием процедуры Wald Interval, то мы знаем, что

p^ ˙ N(p,se)

где - стандартная ошибка Это очень значимое утверждение о том, как относится к . Превращение этого в доверительный интервал - просто попытка упростить этот результат для кого-то, кто не очень знаком с нормальными распределениями. Это также не просто говорит о том, что это всего лишь инструмент для людей, которые не знают о нормальных дистрибутивах; например, процентильная начальная загрузка является инструментом для суммирования ошибки между оценщиком и истинным параметром, когда распределение этой ошибки может быть негауссовым.seр рp^p

Клифф AB
источник
2

Доверительные интервалы не только полезны, но и важны в некоторой области, такой как физика. К сожалению, наибольший шум в отношении КИ исходит от байесовцев, вовлеченных в фальшивые дебаты с частыми лицами, обычно в контексте социальных "наук" и других научных дисциплин.

Предположим, что я измеряю количество в физике, такое как заряд электричества. Я всегда снабжал бы его мерой неопределенности значения, которая обычно является стандартным отклонением. Так как в физике ошибки часто бывают гауссовыми, это напрямую переводится в CI. Однако, когда ошибки не являются гауссовскими, это становится немного сложнее, некоторые интегралы должны быть оценены и т. Д. Ничего особенного, хотя обычно и не бывает эзотерически.

Вот краткое представление о КИ в физике элементарных частиц и определение:

количественное утверждение о доле раз, что такой интервал будет содержать истинное значение параметра в большом количестве повторных экспериментов

Обратите внимание, что в физике «повторные эксперименты» часто имеют буквальное значение: предполагается, что вы можете фактически повторить эксперименты в статье и на самом деле наблюдать эту долю. Таким образом, CI имеет почти буквальное значение для вас, и это просто способ выразить информацию о неопределенности измерения. Это не мысленный эксперимент, не субъективное мнение, не ваши или мои чувства по поводу вероятностей и т. Д. Это то, что вы смогли придумать из экспериментов, и что я должен уметь наблюдать при воспроизведении вашего эксперимента.

Аксакал
источник
1

Эта тема быстро перешла в дебаты между частотой и байесовской политикой, и это нелегко решить. Математика в обоих подходах тверда, поэтому она всегда сводится к философским предпочтениям. Частотная интерпретация вероятности как предела относительной частоты события оправдывается строгим законом больших чисел; независимо от вашей предпочтительной интерпретации вероятности, относительная частота события будет сходиться к его вероятности с вероятностью 1.

Частые доверительные интервалы действительно сложнее интерпретировать, чем байесовские достоверные интервалы. Рассматривая неизвестную величину как случайную величину, байесовцы могут утверждать, что один интервал содержит эту величину с некоторой вероятностью. Частые специалисты отказываются рассматривать некоторые величины как случайные величины, и любые уравнения, содержащие только константы, могут быть только истинными или ложными. Таким образом, при оценке неизвестной постоянной частые лица должны связать их с СЛУЧАЙНЫМ интервалом, чтобы вообще включить вероятность. Вместо одного интервала, содержащего случайную переменную с некоторой вероятностью, метод частых создает много разных возможных интервалов, некоторые из которых содержат неизвестную константу. Если вероятность покрытия достаточно высока, то разумно сказать, что определенный интервал содержит неизвестную константу (примечание, а не «

Байесовец отказывался бы от такого скачка веры, как Фрекалист отказывался рассматривать любую неизвестную величину как случайную величину. На самом деле, частый метод строительства Неймана выявил неловкую проблему с такими прыжками веры. Без активного предотвращения этого (см. Feldman and Cousins, 1997 для одного подхода), редкие результаты могут генерировать ПУСТЫЕ доверительные интервалы для параметра распределения. Такой скачок веры был бы очень неразумным! Я видел, как несколько байесовцев использовали этот пример, чтобы высмеивать методы для часто используемых участников, в то время как участники часто отвечают: «Ну, я все еще получаю правильный интервал большую часть времени и без ложных предположений». Я укажу, что тупик Байеса / частониста не важен для большинства, кто применяет их методы.

BatWannaBe
источник