SPSS обеспечивает вывод «доверительный интервал разности средних». Я читал в некоторых местах, что это означает, что «95 раз из 100, наша выборочная средняя разница будет между этими границами», я нахожу это неясным. Кто-нибудь может предложить более четкую формулировку для объяснения «доверительного интервала разницы в средствах»? Этот вывод появляется в контексте t-критерия с одним образцом.
21
Ответы:
Это непросто даже для уважаемых статистиков. Посмотрите на одну недавнюю попытку Нейта Сильвера :
(из блога FiveThirtyEight в New York Times, 29.09.10.) Это не доверительный интервал. В зависимости от того, как вы его интерпретируете, это либо интервал допуска, либо интервал прогнозирования. (В противном случае нет ничего плохого в том, что г-н Сильвер отлично рассказал об оценке вероятностей; это хорошее чтение.) Многие другие веб-сайты (особенно те, которые ориентированы на инвестиции) также путают доверительные интервалы с другими типами интервалов.
«Нью-Йорк Таймс» предприняла усилия, чтобы уточнить значение статистических результатов, которые она представляет и о которых сообщает. Мелкий шрифт под многими опросами включает в себя что-то вроде этого:
( Например , как проводился опрос , 2/2/2011.)
Возможно, немного многословно, но ясно и точно: это утверждение характеризует изменчивость выборочного распределения результатов опроса. Это приближается к идее доверительного интервала, но это не совсем так. Однако во многих случаях можно рассмотреть возможность использования такой формулировки вместо доверительных интервалов.
Когда в Интернете так много путаницы, полезно обратиться к авторитетным источникам. Один из моих любимых - проверенный временем текст Freedman, Pisani & Purves, Статистика. Теперь, в своем четвертом издании, он используется в университетах более 30 лет и отличается ясными, понятными объяснениями и фокусировкой на классических «частых» методах. Давайте посмотрим, что он говорит о интерпретации доверительных интервалов:
[на стр. 384; все цитаты из третьего издания (1998)]. Это продолжается,
[п. 384]. В тексте гораздо больше говорится о доверительных интервалах, но этого достаточно, чтобы помочь: его подход заключается в том, чтобы перенести фокус обсуждения на образец, одновременно привнося строгость и ясность в утверждения. Поэтому мы можем попробовать то же самое в наших собственных отчетах. Например, давайте применим этот подход к описанию доверительного интервала [34%, 40%] вокруг сообщенной процентной разницы в гипотетическом эксперименте:
(Это мой текст, который, безусловно, можно улучшить: я приглашаю редакторов поработать над ним.)
Такое длинное утверждение несколько громоздко. В реальных отчетах большая часть контекста - случайная выборка, субъекты и контроли, возможность изменчивости - уже будет установлена, что сделает ненужной половину предыдущего утверждения. Когда в отчете указывается, что существует выборочная изменчивость и показана вероятностная модель для результатов выборки, обычно нетрудно объяснить доверительный интервал (или другой случайный интервал) так четко и строго, как этого требует аудитория.
источник
С педантичной технической точки зрения я лично не думаю, что есть «четкая формулировка» интерпретации доверительных интервалов.
Я бы интерпретировал доверительный интервал как: есть 95% вероятность того, что 95% доверительный интервал покрывает истинную среднюю разницу
Но учтите, что это все в философии. Доверительные интервалы лучше оставить неопределенными в объяснениях, как мне кажется. Они дают хорошие результаты при правильном использовании.
источник
Грубый ответ на этот вопрос заключается в том, что 95% доверительный интервал позволяет вам на 95% быть уверенным, что истинное значение параметра находится в пределах этого интервала. Тем не менее, этот грубый ответ является неполным и неточным.
Неполнота заключается в том, что не ясно, что «95% уверенности» означает что-то конкретное, или, если это так, то этот конкретный смысл не будет универсально согласован даже небольшой выборкой статистиков. Значение доверия зависит от того, какой метод использовался для получения интервала и какая модель логического вывода используется (что, я надеюсь, станет более понятным ниже).
Неточность заключается в том, что многие доверительные интервалы не предназначены для того, чтобы сообщать вам что-либо о местонахождении истинного значения параметра для конкретного экспериментального случая, который дал доверительный интервал! Это будет удивлять многих, но это следует непосредственно из философии Неймана-Пирсона, которая четко изложена в этой цитате из их статьи 1933 года «О проблеме наиболее эффективных проверок статистических гипотез»:
Таким образом, интервалы, основанные на «инверсии» тестов гипотез NP, будут наследовать от этого теста природу известных долгосрочных свойств ошибок, не позволяя сделать вывод о свойствах эксперимента, который их дал! Насколько я понимаю, это защищает от индуктивного вывода, который, по-видимому, Нейман считал мерзостью.
Нейман явно претендует на термин «доверительный интервал» и на происхождение теории доверительных интервалов в своей статье 1941 года «Биометрика» «Доверительный аргумент и теория доверительных интервалов». Таким образом, в некотором смысле все, что является доверительным интервалом, воспроизводится по его правилам, и поэтому значение отдельного интервала может быть выражено только в терминах долгосрочной скорости, с которой интервалы, рассчитанные этим методом, содержат (охватывают) соответствующую значение параметра.
Теперь нам нужно раскошелиться на обсуждение. Одна нить следует за понятием «охват», а другая следует за ненеймановскими интервалами, которые подобны доверительным интервалам. Я отложу первый, чтобы закончить этот пост, пока он не стал слишком длинным.
Существует много разных подходов, которые дают интервалы, которые можно назвать ненеймановскими доверительными интервалами. Первым из них являются доверительные интервалы Фишера. (Слово «опознавательный» может напугать многих и вызвать насмешливые ухмылки от других, но я оставлю это в стороне ...) Для некоторых типов данных (например, нормальных с неизвестной дисперсией населения) интервалы, рассчитанные по методу Фишера, численно идентичны интервалы, которые будут рассчитаны по методу Неймана. Тем не менее, они предлагают толкования, которые диаметрально противоположны. Неймановские интервалы отражают только долгосрочные свойства покрытия метода, тогда как интервалы Фишера предназначены для поддержки индуктивного вывода относительно истинных значений параметров для конкретного проведенного эксперимента.
Тот факт, что один набор интервальных границ может быть получен из методов, основанных на любой из двух философски различных парадигм, приводит к действительно запутанной ситуации - результаты могут быть интерпретированы двумя противоречивыми способами. Исходя из доверия, 95% вероятности того, что конкретный 95% доверительный интервал будет содержать истинное значение параметра. Из метода Неймана мы знаем только то, что 95% интервалов, рассчитанных таким образом, будут содержать истинное значение параметра, и должны сказать, что вводит в заблуждение вероятность того, что интервал, содержащий истинное значение параметра, неизвестен, но либо 1, либо 0.
В значительной степени подход Неймана господствовал над подходом Фишера. Это, на мой взгляд, весьма прискорбно, потому что это не приводит к естественной интерпретации интервалов. (Перечитайте цитату выше от Неймана и Пирсона и посмотрите, соответствует ли она вашей естественной интерпретации экспериментальных результатов. Скорее всего, нет.)
Если интервал можно правильно интерпретировать в терминах глобальных коэффициентов ошибок, а также в терминах локальных логических выводов, я не вижу веской причины запрещать пользователям интервалов более естественную интерпретацию, предоставляемую последним. Таким образом, я предполагаю, что правильная интерпретация доверительного интервала является ОБА из следующих:
Neymanian: этот 95% интервал был построен методом, который дает интервалы, которые покрывают истинное значение параметра в 95% случаев в долгосрочной перспективе (... из нашего статистического опыта).
Fisherian: этот 95% интервал имеет 95% вероятность покрытия истинного значения параметра.
(Байесовские методы и методы правдоподобия также дадут интервалы с желаемыми частотными свойствами. Такие интервалы предполагают немного разные интерпретации, которые, вероятно, будут более естественными, чем неймановские.)
источник
Значение доверительного интервала таково: если бы вы повторили свой эксперимент точно таким же образом (то есть: то же количество наблюдений, взято из одной и той же группы населения и т. Д.), И если ваши предположения верны, вы бы рассчитали этот интервал снова в каждом повторении, тогда этот доверительный интервал будет содержать истинную распространенность в 95% повторений (в среднем).
Таким образом, вы можете сказать, что вы на 95% уверены (если ваши предположения верны и т. Д.), Что вы уже построили интервал, который содержит истинную распространенность.
Как правило, это утверждается следующим образом: с доверием 95% от 4,5 до 8,3% детей матерей, которые курили на протяжении всей беременности, страдают ожирением.
Обратите внимание, что это, как правило, само по себе неинтересно: вы, вероятно, хотите сравнить это с распространенностью среди детей матерей, которые не курили (отношение шансов, относительный риск и т. Д.)
источник
Если истинная средняя разница находится за пределами этого интервала, то существует только 5% вероятность того, что средняя разница от нашего эксперимента будет настолько далека от истинной средней разницы.
источник
Моя интерпретация: если вы проводите эксперимент N раз (где N стремится к бесконечности), то из этого большого числа экспериментов 95% экспериментов будут иметь доверительные интервалы, которые находятся в этих 95% -ых пределах. Если говорить более четко, то допустим, что эти пределы равны «a» и «b», тогда 95 из 100 раз вашей средней разницы выборки будут лежать между «a» и «b». Я предполагаю, что вы понимаете, что в разных экспериментах могут быть использованы разные образцы из всего населения.
источник
«В 95 раз из 100 ваше значение будет в пределах одного стандартного отклонения от среднего»
источник