В чем разница между доверительными интервалами и проверкой гипотез?

28

Я читал о противоречиях относительно проверки гипотез с некоторыми комментаторами, предлагающими, чтобы проверка гипотез не использовалась. Некоторые комментаторы предлагают использовать вместо этого доверительные интервалы .

  • В чем разница между доверительными интервалами и проверкой гипотез? Пояснения со ссылкой и примеры будут оценены.
любовь-статистика
источник
5
Я думаю, вы хотели спросить, почему лучше сообщать о результатах проверки гипотезы , показывая доверительный интервал, чем просто сказать, что что-то подтверждено или отклонено на некотором уровне p-значения.
3
Вы должны рассмотреть вопрос о проверке некоторых других ваших вопросов в качестве ответа.
Энди W

Ответы:

19

Вы можете использовать доверительный интервал (CI) для проверки гипотез. В типичном случае, если КИ для эффекта не охватывает 0, вы можете отклонить нулевую гипотезу. Но CI может использоваться для большего, в то время как сообщение о том, был ли он пройден, является пределом полезности теста.

Например, причина, по которой вам рекомендуется использовать CI вместо t-теста, заключается в том, что тогда вы можете делать больше, чем просто проверять гипотезы. Вы можете сделать заявление о диапазоне эффектов, которые, по вашему мнению, вероятны (те, что в КИ). Вы не можете сделать это только с помощью t-теста. Вы также можете использовать его, чтобы делать заявления о нулевом значении, чего нельзя сделать с помощью t-критерия. Если t-критерий не отклоняет нуль, тогда вы просто говорите, что не можете отклонить ноль, а это мало что говорит. Но если у вас узкий доверительный интервал вокруг нуля, то вы можете предположить, что ноль или близкое к нему значение, скорее всего, является истинным значением, и предположить, что эффект от обработки или независимая переменная слишком мал, чтобы быть значимым ( или что ваш эксперимент не

Добавлено позже: я действительно должен был сказать, что, хотя вы можете использовать CI как тест, это не так. Это оценка диапазона, в котором, по вашему мнению, находятся значения параметров. Вы можете сделать тест как умозаключения, но вам гораздо лучше никогда не говорить об этом таким образом.

Как лучше?

А) Эффект составляет 0,6, т (29) = 2,8, р <0,05. Этот статистически значимый эффект ... (следует некоторое обсуждение этой статистической значимости без какого-либо упоминания или даже сильной способности обсуждать практическое значение величины открытия ... в рамках Неймана-Пирсона величина t и Значения p в значительной степени бессмысленны, и все, что вы можете обсудить, - это наличие эффекта или его отсутствие. Вы никогда не сможете говорить о том, что эффект фактически не основан на тесте.)

или

Б) Используя 95% доверительный интервал, я оцениваю эффект между 0,2 и 1,0. (В некоторых дискуссиях говорится о действительном влиянии интереса, о том, являются ли его вероятные значения какими-либо конкретными значениями, и какое-либо использование слова имеет значение именно для того, что оно должно означать. Кроме того, ширина КИ может идти непосредственно к обсуждение того, является ли это сильным открытием или можно сделать только более предварительный вывод)

Если вы взяли базовый класс статистики, вы могли бы изначально стремиться к A. А в некоторых случаях это лучший способ сообщить о результате. Но для большинства работ B намного выше. Оценка дальности не является проверкой.

Джон
источник
Одно дополнение к комментариям @john: во-первых, иногда ключевой вопрос заключается в том, охватывает ли CI 1, а не 0 (например, логистическая регрессия).
Питер Флом - Восстановить Монику
Ребята, это 1 или 0? (Это выглядит очень вдохновляющим для меня, так что я думаю, мне нужно узнать правильное значение, чтобы следить за ним!) @John
Adhesh Josh
Какова связь между 95% ДИ и двусторонней тестовой гипотезой с альфа = 0,05? они одинаковые? Если нет, то как?
love-stats
love-stats, при одинаковом использовании они одинаковы.
Джон
Adhesh Josh, нулевой гипотезой может быть любое фиксированное значение, указанное заранее. Это еще одна особенность CI по прямой NHST. Его очень легко использовать, если вы хотите проверить гипотетическое значение, отличное от 0.
Джон
7

Икс1,Икс2,...,ИксNμN(μ,1)μзнак равномЧАС0:μзнак равном0,05.Таким образом, мы создаем тестовую статистику, которую в этом случае мы возьмем в качестве выборочного среднего:vзнак равно(Икс1+Икс2++ИксN)/NA(м)vA(м)vμзнак равномN(м,1)μмvA(м)мv0μзнак равно0

vμмμзнак равном0,05.мμзнак равном0.021-0,98

DavidR
источник
Пожалуйста, прочтите это, поскольку значение p не может быть интерпретировано как наименьший уровень теста для отклонения нуля. «Уже было показано, что интерпретация значений p в отдельных (или продолжающихся) экспериментах недопустима в контексте проверки гипотезы Неймана-Пирсона. Расчет значения ap зависит только от истинности нулевой гипотезы. Значение p не измеряет количество доказательств в поддержку HA; это мера индуктивного доказательства против H0. " 'Источник: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22
@ sree22 Вы можете расширить это или предложить переписать? Я пытался дать определение р-значения в этом контексте, а не интерпретацию.
DavidR
3

«Студент» высказался за доверительные интервалы на том основании, что они могут показать, какие эффекты были более важными, а какие - более значительными.

Например, если вы обнаружили два эффекта, где первый имел доверительный интервал для своего финансового воздействия от 5 до 6 фунтов стерлингов, а второй имел доверительный интервал от 200 до 2800 фунтов стерлингов. Первое более статистически значимо, но второе, вероятно, более важно.

Генри
источник