Зачем продолжать учить и использовать проверку гипотез (когда есть доверительные интервалы)?

56

Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если таковое имеется) должно быть дано студентам? Только традиция? Мнения будут очень приветствоваться.

Вашингтон С. Сильва
источник
4
Эти цитаты очень уместны. Все модели ошибочны, но некоторые полезны.
mpiktas

Ответы:

60

Это мое личное мнение, поэтому я не уверен, что оно правильно квалифицируется как ответ.

Почему мы должны преподавать проверку гипотез?

Короче говоря, одна очень важная причина заключается в том, что, по всей вероятности, за то время, которое требуется вам для прочтения этого предложения, были проведены сотни, если не тысячи (или миллионы) проверок гипотез в радиусе 10 футов от того места, где вы сидите.

Ваш сотовый телефон определенно использует тест отношения правдоподобия, чтобы определить, находится ли он в пределах досягаемости базовой станции. Оборудование WiFi вашего ноутбука делает то же самое при связи с вашим маршрутизатором.

Микроволновая печь, которую вы использовали для автоматического разогрева этого двухдневного кусочка пиццы, использовала проверку гипотезы, чтобы определить, когда ваша пицца была достаточно горячей.

Система контроля тяги вашего автомобиля сработала, когда вы дали ему слишком много газа на обледенелой дороге, или система предупреждения о давлении в шинах сообщила, что ваша задняя шина на стороне пассажира была ненормально низкой, и ваши фары включились автоматически около 5: 19:00, когда наступали сумерки.

Ваш iPad отображает эту страницу в альбомном формате на основе (шумных) показаний акселерометра.

Компания, выпустившая вашу кредитную карту, отключила вашу карту, когда «вы» приобрели телевизор с плоским экраном у Best Buy в Техасе и кольцо с бриллиантом за 2000 долларов в Zales в торговом центре штата Вашингтон в течение пары часов после покупки обеда, газа и фильма. возле вашего дома в пригороде Питтсбурга.

Сотни тысяч битов, которые были отправлены для отображения этой веб-страницы в вашем браузере, по отдельности прошли проверку гипотезы, чтобы определить, были ли они, скорее всего, 0 или 1 (в дополнение к некоторому удивительному исправлению ошибок).

Посмотрите справа на эти «связанные» темы.

Все это "произошло" из-за проверки гипотез . Для многих из этих вещей может быть рассчитана некоторая интервальная оценка некоторого параметра. Но, особенно для автоматизированных производственных процессов, использование и понимание проверки гипотез имеет решающее значение.


На более теоретическом статистическом уровне важная концепция статистической мощности довольно естественным образом вытекает из концепции принятия решений / проверки гипотез. Кроме того, я верю, что «даже» чистый математик может оценить красоту и простоту леммы Неймана – Пирсона и ее доказательства.

Это не означает, что проверка гипотез хорошо изучена или понята. По большому счету это не так. И хотя я согласен, что - особенно в медицинских науках - представление интервальных оценок вместе с величинами эффекта и понятиями практической и статистической значимости почти повсеместно предпочтительнее любого формального теста гипотез, это не означает, что проверка гипотез и связанные с ними понятия не важны и интересны сами по себе.

кардинальный
источник
2
Спасибо за интересный список примеров. Учитывая цель вопроса: чтобы внести свой вклад в дебаты по обзору наших статистических курсов, мы постараемся получить более подробную информацию о внедрении тестирования в современных устройствах, что может стать отличной мотивацией для наших студентов-инженеров.
Вашингтон С. Сильва
3
Большинство ваших примеров на самом деле нуждаются не в проверке классической гипотезы (подразумевающей фиксированный уровень достоверности), а в процедуре принятия решения.
kjetil b halvorsen
1
Уважаемый @kjetil: откровенное голосование здесь кажется немного резким, если честно. Действительно, этот вопрос не задает ничего конкретного о проверке классической гипотезы, и мой ответ также не делает этого предположения! ( Проверка гипотез здесь интерпретируется широко, и на то есть веская причина.)
Кардинал
1
Мне нужно купить микроволновку с автоподогревом.
Джмбехара
2
Это очень красноречивый ответ, но я был бы очень признателен, если бы вы немного подробнее объяснили, почему все эти вещи являются «проверками гипотез». Я понимаю, что все ваши примеры об автоматизированных бинарных решениях. Я полагаю, что в большинстве случаев какое-то значение измеряется, а затем сравнивается с порогом, чтобы решить, будет ли оно выше или ниже его (и, следовательно, прийти к решению). Это уже считается «проверкой гипотезы» для вас, или вы имели в виду что-то еще? Я предполагаю, что когда ОП спросили о том, почему тестирование гипотез все еще преподается, они не имели в виду простое определение пороговых значений.
говорит амеба: восстанови Монику
29

Я преподаю проверки гипотез по ряду причин. Один из них исторический: им придется понять большую часть предшествующего исследования, которое они прочитают, и понять точку зрения, необходимую для проверки гипотез. Второе - это то, что даже в наше время он все еще используется некоторыми исследователями, часто неявно, при выполнении других видов статистического анализа.

Но когда я учу этому, я учу этому в рамках построения моделей, что эти предположения и оценки являются частью построения моделей. Таким образом, относительно легко перейти к сравнению более сложных и теоретически интересных моделей. Исследования чаще противопоставляют теории друг другу, а не теории и ничему.

Грехи проверки гипотез не присущи математике и правильному использованию этих расчетов. Где они в основном лгут, так это чрезмерное доверие и неправильное толкование. Если подавляющее большинство наивных исследователей использовали исключительно интервальную оценку без какого-либо признания какой-либо связи с этими вещами, мы называем гипотезы, которые мы можем назвать грехом.

Джон
источник
+1, спасибо. Хорошо аргументировано. Но на вводных курсах выбор модели в строгом смысле слова отсутствует. Вы могли бы привести другие контексты, которые подходят для введения проверки гипотез? Допустимо ли сообщать о результатах теста без оценки мощности?
Вашингтон С. Сильва
2
Отсутствие выбора модели на вводных курсах не является необходимостью. Если вы думаете об изменении курса, подумайте, что это хорошее место для начала.
Джон
20

PPPP

Фрэнк Харрелл
источник
2
Я бы не сказал, что в некоторых областях «Единственное место ...» и «Включить ANOVA ...» означает, что вы только что охватили огромное количество статистических инструментов.
Fomite
4
Я думаю, что многое можно сказать по этой позиции. Учитывая, что многие исследователи в основном хотят знать о закономерностях в своих данных, я часто задавался вопросом, можем ли мы разумно откладывать большую часть статистики и просто использовать графики данных. (Конечно, это предполагает, что сюжеты будут выполнены умело и проницательно, и тесты гипотез не будут такими же плохими, если мы скажем об этом.)
gung - Восстановить Монику
1
Как ни странно, я не согласен с цитатой «отсутствие доказательств не является доказательством отсутствия». Отсутствие доказательств какого-либо эффекта не является доказательством того, что никакого эффекта не существует, но, безусловно, является доказательством того, что этот эффект существует. Вопрос больше в том, сколько доказательств против эффекта имеет незначительный результат. Проблема с большими p-значениями, я думаю, состоит в том, что в случае нормального распределения большие p-значения являются доказательством гипотезы, поскольку они являются монотонной функцией добротности соответствия. И поскольку нормальное распределение является настолько распространенным явлением, люди видят это и экстраполируют
вероятностное
5
P
11

Я думаю, это зависит от того, о какой проверке гипотез вы говорите. Считается, что «классическая» проверка гипотез (Нейман-Пирсон) является неполноценной, поскольку она не обеспечивает надлежащего условия того, что действительно произошло, когда вы проводили тест . Вместо этого он предназначен для работы «независимо» от того, что вы действительно видели в долгосрочной перспективе. Но невыполнение условия может привести к ошибочным результатам в каждом конкретном случае. Это просто потому, что процедура «не заботится» о конкретном случае в долгосрочной перспективе.

Проверка гипотез может быть заложена в теоретической структуре принятия решений, что, я думаю, является гораздо лучшим способом понять ее. Вы можете сформулировать проблему как два решения:

  1. H0
  2. HA

Рамки принятия решений гораздо легче понять, потому что они четко разделяют понятия «что вы будете делать?» и "что есть правда?" (через вашу предварительную информацию).

Вы даже можете применить «теорию принятия решений» (DT) к вашему вопросу. Но для того, чтобы прекратить проверку гипотез, DT говорит, что у вас должно быть альтернативное решение. Таким образом, вопрос заключается в следующем: если проверка гипотез прекращается, что должно занять ее место? Я не могу придумать ответ на этот вопрос. Я могу думать только об альтернативных способах проверки гипотез.

(ПРИМЕЧАНИЕ: в контексте проверки гипотезы данные, распределение выборки, предварительное распределение и функция потерь - все это предварительная информация, потому что они получены до принятия решения.)

probabilityislogic
источник
Моя цель в этом вопросе состояла в том, чтобы собрать мнение экспертов, чтобы обогатить дебаты о пересмотре курсов по статистике, которые ведутся в институте, где я работаю в Бразилии. Цель достигается с помощью мнений, таких как @cardinal, @Andrew Robinson, @probabilityislogic и @JMS. Ясно, что тестирование гипотез (через NP, DT или Byes) должно быть очень хорошо изучено, но задачи по созданию соответствующих курсов, учитывая универсальность преподавания статистики, одинаково или более сложны, чем сама методика. Спасибо за ваш вклад.
Вашингтон С. Сильва
1
Мне нравится теория принятия решений, если она выполняется строго с использованием байесовских методов, которые включают в себя разумные функции потери / полезности. Если такие функции недоступны, я склоняюсь к оценке интервалов.
Фрэнк Харрелл
@FrankHarrell - я согласен, но я бы все же классифицировал оценку интервалов как своего рода «теорию принятия решений», где функция полезности обычно основана на информационном содержании (то есть выводы, которые используют больше информации, которую мы имеем, лучше) - и это оптимизируется самим апостериорным распределением и, возможно, апостериорным прогнозом, если прогноз представляет интерес. Интервальная оценка обеспечивает удобную сводку апостериорных. И хорошие доверительные интервалы (например, основанные на MLE) обеспечивают очень хорошее приближение к этому, когда информация за пределами имеющихся данных недостаточна
вероятностная
Обычно вы используете оценку интервала, когда у вас нет конкретного решения (что, вероятно, является основной причиной, по которой у вас не будет разумной функции потерь), и поэтому вам необходимо учитывать множество различных сценариев.
вероятностная
9

Если бы я был хардкорным частым участником, я бы напомнил вам, что доверительные интервалы довольно регулярно представляют собой просто тесты с перевернутыми гипотезами, то есть, когда интервал 95% - это просто еще один способ описания всех точек, которые тест с вашими данными не отклонил бы в 0,05. уровень. В этих ситуациях предпочтение одного перед другим - это вопрос изложения, а не метода.

Конечно, экспозиция важна, но я думаю, что это был бы довольно хороший аргумент. Аккуратно и понятно объяснить оба подхода как повторение одного и того же вывода с разных точек зрения. (То обстоятельство, что не все интервальные оценки являются инвертированными тестами, является, с педагогической точки зрения, не элегантным, но не особенно неудобным фактом)

Гораздо более серьезные последствия вытекают из решения обуславливать наблюдения, как указано выше. Тем не менее, даже в ретрите Frequentist всегда мог наблюдать, что есть множество ситуаций (возможно, не большинство), где обусловливание наблюдений было бы неразумным или неосвещающим. Для них настройка HT / CI (а не «есть») именно то, что нужно, и ее следует преподавать как таковой.

conjugateprior
источник
Формально говоря, любой тест гипотезы с альфа-связью на уровне ошибки типа I может быть превращен в доверительный интервал с параметром покрытия (1-альфа) и наоборот, нет? Я не думаю, что вам нужно быть заядлым участником, чтобы поверить, что это связано с определениями. :-)
Кит Винстейн
3
@Keith Никаких аргументов по поводу определений, но вам нужно быть частым, чтобы считать их более чем интересными и, возможно, полезными кусочками математики. То есть, если вы считаете, что теоретические свойства выборки имеют жизненно важное значение для статистического вывода, вы будете (или должны) в равной степени стремиться к доверительным интервалам и проверкам гипотез, поскольку, как мы согласны, они имеют эту симметрию. Мой ответ был ответом на контраст между «хорошими» CI и «плохими» HT. Объединив их воедино, я хотел перефокусироваться на контрастах, возникающих в других ответах.
conjugateprior
7

Преподавая тестирование гипотезы Неймана Пирсона студентам, занимающимся ранней статистикой, я часто пытался найти его в его первоначальной обстановке: в принятии решений. Тогда инфраструктура ошибок типа 1 и 2 имеет смысл, как и идея, что вы можете принять нулевую гипотезу.

Мы должны принять решение, мы думаем, что результат нашего решения может быть улучшен за счет знания параметра, у нас есть только оценка этого параметра. Нам еще предстоит принять решение. Тогда какое лучшее решение следует принять в контексте оценки параметра?

Мне кажется, что в своем первоначальном виде (принятие решений в условиях неопределенности) проверка гипотезы NP имеет смысл. См., Например, N & P 1933, в частности, стр. 291.

Нейман и Пирсон. К проблеме наиболее эффективных тестов статистических гипотез. Философские труды Лондонского королевского общества. Серия A, содержащая статьи математического или физического характера (1933), вып. 231 с. 289-337

Эндрю Робинсон
источник
4

Проверка гипотез - это полезный способ сформулировать множество вопросов: эффект лечения нулевой или ненулевой? Я считаю, что способность между такими утверждениями и статистической моделью или процедурой (включая построение интервальной оценки) важна для практиков.

Следует также упомянуть, что доверительный интервал (в традиционном смысле) по своей природе не менее «склонен к греху», чем проверка гипотез - сколько студентов-знакомых знакомо с настоящим определением доверительного интервала?

Возможно, проблема не в проверке гипотезы или оценке интервала, а в классических версиях того же самого; Байесовская формулировка избегает этого довольно хорошо.

JMS
источник
2
@JMS, «сколько студентов знакомятся с реальным определением доверительного интервала?» Или выпускников аспирантуры, если уж на то пошло.
кардинал
Довольно! Между прочим, я имел в виду не копать студентов или практиков любых мастей. Но немного глупо ожидать, что умственная гимнастика от кого-то, кто не подписался на продвинутую работу в области статистики.
JMS
2
Сколько людей могут сказать реальное определение КИ? И сколько людей используют их в соответствии с этим определением? Просто слишком трудно не думать, что «параметр, вероятно, находится в указанном интервале» - даже если вы не знаете, что такое КИ.
вероятностная
Обычные и обычные оценки
Вашингтон С. Сильва,
1
Я попытался выразить то, что проверки гипотез, не сопровождаемые оценками мощности, очень сомнительны, и что интервальные оценки не имеют этого дополнительного источника осложнений.
Вашингтон С. Сильва
2

Причина в принятии решений. В большинстве решений вы либо делаете это, либо нет. Вы можете продолжать смотреть на интервалы в течение всего дня, в конце концов, есть момент, когда вы решаете сделать это или нет.

Проверка гипотез прекрасно вписывается в эту простую реальность ДА / НЕТ.

Аксакал
источник