Как интерпретировать доверительный интервал разницы в средних значениях в одном выборочном Т-тесте?

21

SPSS обеспечивает вывод «доверительный интервал разности средних». Я читал в некоторых местах, что это означает, что «95 раз из 100, наша выборочная средняя разница будет между этими границами», я нахожу это неясным. Кто-нибудь может предложить более четкую формулировку для объяснения «доверительного интервала разницы в средствах»? Этот вывод появляется в контексте t-критерия с одним образцом.

Энн
источник
1
Каково ваше понимание?
mpiktas
1
Обратите внимание, что нет ничего особенного в том, что это пропорция: CI для оценки чего-либо будет интерпретироваться аналогичным образом. (Однако для построения КИ могут использоваться разные процедуры, в зависимости от того, что оценивается.) Следовательно, этот вопрос точно такой же, как и предыдущие вопросы, требующие интерпретации КИ.
whuber

Ответы:

13

Это непросто даже для уважаемых статистиков. Посмотрите на одну недавнюю попытку Нейта Сильвера :

... если бы я попросил вас сказать мне, как часто ваша поездка занимает на 10 минут больше, чем в среднем - то, что требует некоторой версии доверительного интервала - вам придется подумать об этом немного, ...

(из блога FiveThirtyEight в New York Times, 29.09.10.) Это не доверительный интервал. В зависимости от того, как вы его интерпретируете, это либо интервал допуска, либо интервал прогнозирования. (В противном случае нет ничего плохого в том, что г-н Сильвер отлично рассказал об оценке вероятностей; это хорошее чтение.) Многие другие веб-сайты (особенно те, которые ориентированы на инвестиции) также путают доверительные интервалы с другими типами интервалов.

«Нью-Йорк Таймс» предприняла усилия, чтобы уточнить значение статистических результатов, которые она представляет и о которых сообщает. Мелкий шрифт под многими опросами включает в себя что-то вроде этого:

Теоретически, в 19 случаях из 20 результаты, основанные на таких выборках всех взрослых, будут отличаться не более чем на три процентных пункта в любом направлении от того, что было бы получено при опросе всех взрослых американцев.

( Например , как проводился опрос , 2/2/2011.)

Возможно, немного многословно, но ясно и точно: это утверждение характеризует изменчивость выборочного распределения результатов опроса. Это приближается к идее доверительного интервала, но это не совсем так. Однако во многих случаях можно рассмотреть возможность использования такой формулировки вместо доверительных интервалов.

Когда в Интернете так много путаницы, полезно обратиться к авторитетным источникам. Один из моих любимых - проверенный временем текст Freedman, Pisani & Purves, Статистика. Теперь, в своем четвертом издании, он используется в университетах более 30 лет и отличается ясными, понятными объяснениями и фокусировкой на классических «частых» методах. Давайте посмотрим, что он говорит о интерпретации доверительных интервалов:

Уровень достоверности 95% говорит о процедуре отбора проб ...

[на стр. 384; все цитаты из третьего издания (1998)]. Это продолжается,

Если бы образец вышел по-другому, доверительный интервал был бы другим. ... Примерно для 95% всех выборок интервал ... охватывает процент населения, а для остальных 5% - нет.

[п. 384]. В тексте гораздо больше говорится о доверительных интервалах, но этого достаточно, чтобы помочь: его подход заключается в том, чтобы перенести фокус обсуждения на образец, одновременно привнося строгость и ясность в утверждения. Поэтому мы можем попробовать то же самое в наших собственных отчетах. Например, давайте применим этот подход к описанию доверительного интервала [34%, 40%] вокруг сообщенной процентной разницы в гипотетическом эксперименте:

«В этом эксперименте использовалась случайно выбранная выборка субъектов и случайный выбор контролей. Мы сообщаем о доверительном интервале от 34% до 40% для разницы. Это количественно определяет надежность эксперимента: если выбор субъектов и контролей был другим этот доверительный интервал изменится, чтобы отразить результаты для выбранных субъектов и контролей. В 95% таких случаев доверительный интервал будет включать истинную разницу (между всеми субъектами и всеми контролями), а в остальных 5% случаев он не будет Поэтому вполне вероятно, но не обязательно, что этот доверительный интервал включает в себя истинную разницу: то есть мы считаем, что истинная разница составляет от 34% до 40% ».

(Это мой текст, который, безусловно, можно улучшить: я приглашаю редакторов поработать над ним.)

Такое длинное утверждение несколько громоздко. В реальных отчетах большая часть контекста - случайная выборка, субъекты и контроли, возможность изменчивости - уже будет установлена, что сделает ненужной половину предыдущего утверждения. Когда в отчете указывается, что существует выборочная изменчивость и показана вероятностная модель для результатов выборки, обычно нетрудно объяснить доверительный интервал (или другой случайный интервал) так четко и строго, как этого требует аудитория.

Whuber
источник
Спасибо Whuber, я хорошо понимаю доверительные интервалы для среднего значения. Это CI для разницы в средствах (между образцом и поп-музыкой), где я запутался.
Энн
@ Анна Что ты имеешь в виду? Насколько я могу судить, ни ваш вопрос, ни какой-либо из ответов не относятся к разнице между средним по выборке и средним по популяции. Похоже, ваш вопрос относится к разнице между двумя выборочными средними (возможно, между средним значением группы экспериментальных субъектов и группы контролей).
whuber
Пример, о котором я думаю, это то, где вы ищете разницу между выборкой и средним населением. В данном случае, что именно означает CI между сэмплом и поп-музыкой. Мы использовали выборочное среднее значение для оценки стандартного отклонения поп, и, следовательно, исходя из этого, мы оцениваем CI вокруг средней оценки. Разница в средних значениях - это не разница между предоставленной нами средней величиной и средней выборкой. Так что же это?
Энн
1
@Anne Является ли «среднее население» гипотетическим, неизвестным средним значением популяции, отобранной для выборки, или является средним измеренным значением для другой популяции, которая была полностью отобрана? Кроме того, в каком смысле вы использовали «среднее значение выборки» для оценки стандартного отклонения популяции ? Это опечатка?
whuber
2
@ whuber спасибо. Ваша строка «КИ, рассчитанные для 95% всех образцов (то есть 95% всех возможных повторений), покроют эту истинную разницу». для меня яснее, чем «95 раз из 100, наша выборочная средняя разница будет между этими границами», и ваше объяснение имеет логический смысл.
Анна
5

С педантичной технической точки зрения я лично не думаю, что есть «четкая формулировка» интерпретации доверительных интервалов.

Я бы интерпретировал доверительный интервал как: есть 95% вероятность того, что 95% доверительный интервал покрывает истинную среднюю разницу

NN

N-1

Но учтите, что это все в философии. Доверительные интервалы лучше оставить неопределенными в объяснениях, как мне кажется. Они дают хорошие результаты при правильном использовании.

probabilityislogic
источник
Начиная новое предложение после «N различных доверительных интервалов». плохо сочетается с «вы можете далее интерпретировать это как высказывание ...». Я предлагаю изменить третий абзац.
Theta30
2
Ваш третий абзац намного лучше, чем второй. Условно для наблюдаемых данных доверительный интервал либо содержит истинное значение параметра, либо нет.
кардинал
@probabilityislogic: Поскольку этот ответ принят, рассмотрите возможность редактирования второго абзаца. Кроме того, не могли бы вы уточнить, что вы имеете в виду в своем втором абзаце? Как говорится, я не совсем уверен, какой аргумент вы приводите.
кардинал
если мы интерпретируем доверительные интервалы в терминах «повторения» эксперимента, то мы должны игнорировать предыдущие эксперименты в этих повторениях. Моя точка зрения такова: почему незнание предыдущих экспериментов в этих «повторениях» доверительных интервалов хорошо для тех наборов данных, которые мы не наблюдали, но мы должны объединить данные вместе для данных, которые мы наблюдали? Разве не имеет смысла (насколько я понимаю, интерпретация CI) создавать как можно больше CI из имеющихся у вас данных?
вероятностная
1
Существует целая теория, в значительной степени параллельная теории оптимальных решений, о равномерно наиболее точных наборах достоверности. Может быть, это часть головоломки, пропавшая без вести. (?)
кардинал
3

Грубый ответ на этот вопрос заключается в том, что 95% доверительный интервал позволяет вам на 95% быть уверенным, что истинное значение параметра находится в пределах этого интервала. Тем не менее, этот грубый ответ является неполным и неточным.

Неполнота заключается в том, что не ясно, что «95% уверенности» означает что-то конкретное, или, если это так, то этот конкретный смысл не будет универсально согласован даже небольшой выборкой статистиков. Значение доверия зависит от того, какой метод использовался для получения интервала и какая модель логического вывода используется (что, я надеюсь, станет более понятным ниже).

Неточность заключается в том, что многие доверительные интервалы не предназначены для того, чтобы сообщать вам что-либо о местонахождении истинного значения параметра для конкретного экспериментального случая, который дал доверительный интервал! Это будет удивлять многих, но это следует непосредственно из философии Неймана-Пирсона, которая четко изложена в этой цитате из их статьи 1933 года «О проблеме наиболее эффективных проверок статистических гипотез»:

Мы склонны считать, что в отношении конкретной гипотезы ни один тест, основанный на теории вероятностей, сам по себе не может предоставить какого-либо ценного доказательства истинности или ложности этой гипотезы.

Но мы можем взглянуть на цель тестов с другой точки зрения. Не надеясь узнать, является ли каждая отдельная гипотеза истинной или ложной, мы можем искать правила, управляющие нашим поведением по отношению к ним, следуя которым мы заверяем, что в долгом опыте мы не будем слишком часто ошибаться.

Таким образом, интервалы, основанные на «инверсии» тестов гипотез NP, будут наследовать от этого теста природу известных долгосрочных свойств ошибок, не позволяя сделать вывод о свойствах эксперимента, который их дал! Насколько я понимаю, это защищает от индуктивного вывода, который, по-видимому, Нейман считал мерзостью.

Нейман явно претендует на термин «доверительный интервал» и на происхождение теории доверительных интервалов в своей статье 1941 года «Биометрика» «Доверительный аргумент и теория доверительных интервалов». Таким образом, в некотором смысле все, что является доверительным интервалом, воспроизводится по его правилам, и поэтому значение отдельного интервала может быть выражено только в терминах долгосрочной скорости, с которой интервалы, рассчитанные этим методом, содержат (охватывают) соответствующую значение параметра.

Теперь нам нужно раскошелиться на обсуждение. Одна нить следует за понятием «охват», а другая следует за ненеймановскими интервалами, которые подобны доверительным интервалам. Я отложу первый, чтобы закончить этот пост, пока он не стал слишком длинным.

Существует много разных подходов, которые дают интервалы, которые можно назвать ненеймановскими доверительными интервалами. Первым из них являются доверительные интервалы Фишера. (Слово «опознавательный» может напугать многих и вызвать насмешливые ухмылки от других, но я оставлю это в стороне ...) Для некоторых типов данных (например, нормальных с неизвестной дисперсией населения) интервалы, рассчитанные по методу Фишера, численно идентичны интервалы, которые будут рассчитаны по методу Неймана. Тем не менее, они предлагают толкования, которые диаметрально противоположны. Неймановские интервалы отражают только долгосрочные свойства покрытия метода, тогда как интервалы Фишера предназначены для поддержки индуктивного вывода относительно истинных значений параметров для конкретного проведенного эксперимента.

Тот факт, что один набор интервальных границ может быть получен из методов, основанных на любой из двух философски различных парадигм, приводит к действительно запутанной ситуации - результаты могут быть интерпретированы двумя противоречивыми способами. Исходя из доверия, 95% вероятности того, что конкретный 95% доверительный интервал будет содержать истинное значение параметра. Из метода Неймана мы знаем только то, что 95% интервалов, рассчитанных таким образом, будут содержать истинное значение параметра, и должны сказать, что вводит в заблуждение вероятность того, что интервал, содержащий истинное значение параметра, неизвестен, но либо 1, либо 0.

В значительной степени подход Неймана господствовал над подходом Фишера. Это, на мой взгляд, весьма прискорбно, потому что это не приводит к естественной интерпретации интервалов. (Перечитайте цитату выше от Неймана и Пирсона и посмотрите, соответствует ли она вашей естественной интерпретации экспериментальных результатов. Скорее всего, нет.)

Если интервал можно правильно интерпретировать в терминах глобальных коэффициентов ошибок, а также в терминах локальных логических выводов, я не вижу веской причины запрещать пользователям интервалов более естественную интерпретацию, предоставляемую последним. Таким образом, я предполагаю, что правильная интерпретация доверительного интервала является ОБА из следующих:

  • Neymanian: этот 95% интервал был построен методом, который дает интервалы, которые покрывают истинное значение параметра в 95% случаев в долгосрочной перспективе (... из нашего статистического опыта).

  • Fisherian: этот 95% интервал имеет 95% вероятность покрытия истинного значения параметра.

(Байесовские методы и методы правдоподобия также дадут интервалы с желаемыми частотными свойствами. Такие интервалы предполагают немного разные интерпретации, которые, вероятно, будут более естественными, чем неймановские.)

Майкл Лью
источник
@Micheal - место, где они будут различаться, заключается в том, что интервал между фудиями должен основываться на достаточной статистике и условии для всех вспомогательных величин. Доверительный интервал Неймана не требует этого свойства, поэтому на него распространяется «доверительный интервал 95%», имеющий различное покрытие для определенных подклассов выборок.
вероятностная
@probability - Можете ли вы расширить это? Вы имеете в виду, что существуют обстоятельства, когда 95-процентный неймановский доверительный интервал является доверительным интервалом, но это не 95-процентный интервал? Какими будут эти обстоятельства? Будут ли в этих обстоятельствах интервалы между Фишерией иметь одинаковые границы?
Майкл Лью
Вы можете показать случаи, когда из выборки можно сказать, что доверительный интервал «95%» не содержит истинного значения. В примере 5 и примере 6 в статье Джейнса приводятся два случая, когда отсутствие достаточной статистики в КИ даст долгосрочное покрытие, но покрытие будет варьироваться в зависимости от определенных классов выборок. Это аналогично наличию двух переменных с одинаковым средним значением (охват в долгосрочной перспективе), но разной дисперсией (охват в конкретном случае)
вероятностная
2

Значение доверительного интервала таково: если бы вы повторили свой эксперимент точно таким же образом (то есть: то же количество наблюдений, взято из одной и той же группы населения и т. Д.), И если ваши предположения верны, вы бы рассчитали этот интервал снова в каждом повторении, тогда этот доверительный интервал будет содержать истинную распространенность в 95% повторений (в среднем).

Таким образом, вы можете сказать, что вы на 95% уверены (если ваши предположения верны и т. Д.), Что вы уже построили интервал, который содержит истинную распространенность.

Как правило, это утверждается следующим образом: с доверием 95% от 4,5 до 8,3% детей матерей, которые курили на протяжении всей беременности, страдают ожирением.

Обратите внимание, что это, как правило, само по себе неинтересно: вы, вероятно, хотите сравнить это с распространенностью среди детей матерей, которые не курили (отношение шансов, относительный риск и т. Д.)

Ник Сабби
источник
(Этот ответ, который поступил сюда после слияния двух потоков, отвечает на дублирующий вопрос, сформулированный в виде CI пропорции.)
whuber
0

Если истинная средняя разница находится за пределами этого интервала, то существует только 5% вероятность того, что средняя разница от нашего эксперимента будет настолько далека от истинной средней разницы.

Томас Левайн
источник
Что вы подразумеваете под "это далеко"? Это верхняя граница КИ, которая находится далеко или наблюдаемое среднее?
вероятностная
Расстояние между истинным средним и наблюдаемым средним - это то, что я подразумеваю под «так далеко». Я собираюсь изменить его на «так далеко»; Я думаю, что это немного яснее.
Томас Левин,
-2

Моя интерпретация: если вы проводите эксперимент N раз (где N стремится к бесконечности), то из этого большого числа экспериментов 95% экспериментов будут иметь доверительные интервалы, которые находятся в этих 95% -ых пределах. Если говорить более четко, то допустим, что эти пределы равны «a» и «b», тогда 95 из 100 раз вашей средней разницы выборки будут лежать между «a» и «b». Я предполагаю, что вы понимаете, что в разных экспериментах могут быть использованы разные образцы из всего населения.

Аюш Бияни
источник
@ Аюш. Спасибо. Это полезно. Извините, я не совсем понимаю ваше последнее предложение.
Энн
@anne - Хорошо. Я имею в виду, что если вы хотите проверить среднее между двумя образцами и, допустим, в каждом образце 1000 человек, вы можете определить из него бесконечные выборки (скажем, 40 человек из каждого). Я написал это, чтобы объяснить, почему разные эксперименты отличаются друг от друга .. Эксперименты, в которых мы наблюдаем доверительный интервал.
Аюш Бияни
2
@ayush - это не правильная интерпретация в вашем втором последнем предложении. Или, по крайней мере, вы должны добавить подписки к «a» и «b», что дает понять, что именно эти количества меняются в 100 раз. Ваше текущее примечание заставляет это казаться, что "a" и "b" являются фиксированными величинами.
вероятностная
@probabilityislogic - согласен .. подписки необходимы.
Аюш Бияни
1
@Ayush (-1) Характеристика, которая в настоящее время появляется в вашем ответе, может интерпретироваться несколькими способами, большинство из которых (поэтому) неверны. Например, доверительные интервалы[a,б]обычно строятся так, чтобы содержать «среднюю разницу выборки», подразумевая, что эта разница будет лежать между пределами 100% времени, несмотря ни на что.
whuber
-2

«В 95 раз из 100 ваше значение будет в пределах одного стандартного отклонения от среднего»

beginnerstat
источник
4
Добро пожаловать на сайт, @beginnerstat. Интересно, вы хотели сказать « два стандартных отклонения от среднего»? Кроме того, я не уверен, что вижу, как эта формулировка улучшает то, что ОП читал в другом месте. Хотели бы вы уточнить немного?
gung - Восстановить Монику
1
Да, к комментарию @ gung: мне особенно интересно понять, в каком смысле здесь используется «среднее» и «SD». Это относится к базовым параметрам или к выборочным оценкам ? Относятся ли они к распределению базовой случайной величины или к выборочному распределению среднего значения iid, отличающемуся от такого распределения?
whuber