Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если таковое имеется) должно быть дано студентам? Только традиция? Мнения будут очень приветствоваться.
hypothesis-testing
confidence-interval
teaching
Вашингтон С. Сильва
источник
источник
Ответы:
Это мое личное мнение, поэтому я не уверен, что оно правильно квалифицируется как ответ.
Почему мы должны преподавать проверку гипотез?
Короче говоря, одна очень важная причина заключается в том, что, по всей вероятности, за то время, которое требуется вам для прочтения этого предложения, были проведены сотни, если не тысячи (или миллионы) проверок гипотез в радиусе 10 футов от того места, где вы сидите.
Ваш сотовый телефон определенно использует тест отношения правдоподобия, чтобы определить, находится ли он в пределах досягаемости базовой станции. Оборудование WiFi вашего ноутбука делает то же самое при связи с вашим маршрутизатором.
Микроволновая печь, которую вы использовали для автоматического разогрева этого двухдневного кусочка пиццы, использовала проверку гипотезы, чтобы определить, когда ваша пицца была достаточно горячей.
Система контроля тяги вашего автомобиля сработала, когда вы дали ему слишком много газа на обледенелой дороге, или система предупреждения о давлении в шинах сообщила, что ваша задняя шина на стороне пассажира была ненормально низкой, и ваши фары включились автоматически около 5: 19:00, когда наступали сумерки.
Ваш iPad отображает эту страницу в альбомном формате на основе (шумных) показаний акселерометра.
Компания, выпустившая вашу кредитную карту, отключила вашу карту, когда «вы» приобрели телевизор с плоским экраном у Best Buy в Техасе и кольцо с бриллиантом за 2000 долларов в Zales в торговом центре штата Вашингтон в течение пары часов после покупки обеда, газа и фильма. возле вашего дома в пригороде Питтсбурга.
Сотни тысяч битов, которые были отправлены для отображения этой веб-страницы в вашем браузере, по отдельности прошли проверку гипотезы, чтобы определить, были ли они, скорее всего, 0 или 1 (в дополнение к некоторому удивительному исправлению ошибок).
Посмотрите справа на эти «связанные» темы.
Все это "произошло" из-за проверки гипотез . Для многих из этих вещей может быть рассчитана некоторая интервальная оценка некоторого параметра. Но, особенно для автоматизированных производственных процессов, использование и понимание проверки гипотез имеет решающее значение.
На более теоретическом статистическом уровне важная концепция статистической мощности довольно естественным образом вытекает из концепции принятия решений / проверки гипотез. Кроме того, я верю, что «даже» чистый математик может оценить красоту и простоту леммы Неймана – Пирсона и ее доказательства.
Это не означает, что проверка гипотез хорошо изучена или понята. По большому счету это не так. И хотя я согласен, что - особенно в медицинских науках - представление интервальных оценок вместе с величинами эффекта и понятиями практической и статистической значимости почти повсеместно предпочтительнее любого формального теста гипотез, это не означает, что проверка гипотез и связанные с ними понятия не важны и интересны сами по себе.
источник
Я преподаю проверки гипотез по ряду причин. Один из них исторический: им придется понять большую часть предшествующего исследования, которое они прочитают, и понять точку зрения, необходимую для проверки гипотез. Второе - это то, что даже в наше время он все еще используется некоторыми исследователями, часто неявно, при выполнении других видов статистического анализа.
Но когда я учу этому, я учу этому в рамках построения моделей, что эти предположения и оценки являются частью построения моделей. Таким образом, относительно легко перейти к сравнению более сложных и теоретически интересных моделей. Исследования чаще противопоставляют теории друг другу, а не теории и ничему.
Грехи проверки гипотез не присущи математике и правильному использованию этих расчетов. Где они в основном лгут, так это чрезмерное доверие и неправильное толкование. Если подавляющее большинство наивных исследователей использовали исключительно интервальную оценку без какого-либо признания какой-либо связи с этими вещами, мы называем гипотезы, которые мы можем назвать грехом.
источник
источник
Я думаю, это зависит от того, о какой проверке гипотез вы говорите. Считается, что «классическая» проверка гипотез (Нейман-Пирсон) является неполноценной, поскольку она не обеспечивает надлежащего условия того, что действительно произошло, когда вы проводили тест . Вместо этого он предназначен для работы «независимо» от того, что вы действительно видели в долгосрочной перспективе. Но невыполнение условия может привести к ошибочным результатам в каждом конкретном случае. Это просто потому, что процедура «не заботится» о конкретном случае в долгосрочной перспективе.
Проверка гипотез может быть заложена в теоретической структуре принятия решений, что, я думаю, является гораздо лучшим способом понять ее. Вы можете сформулировать проблему как два решения:
Рамки принятия решений гораздо легче понять, потому что они четко разделяют понятия «что вы будете делать?» и "что есть правда?" (через вашу предварительную информацию).
Вы даже можете применить «теорию принятия решений» (DT) к вашему вопросу. Но для того, чтобы прекратить проверку гипотез, DT говорит, что у вас должно быть альтернативное решение. Таким образом, вопрос заключается в следующем: если проверка гипотез прекращается, что должно занять ее место? Я не могу придумать ответ на этот вопрос. Я могу думать только об альтернативных способах проверки гипотез.
(ПРИМЕЧАНИЕ: в контексте проверки гипотезы данные, распределение выборки, предварительное распределение и функция потерь - все это предварительная информация, потому что они получены до принятия решения.)
источник
Если бы я был хардкорным частым участником, я бы напомнил вам, что доверительные интервалы довольно регулярно представляют собой просто тесты с перевернутыми гипотезами, то есть, когда интервал 95% - это просто еще один способ описания всех точек, которые тест с вашими данными не отклонил бы в 0,05. уровень. В этих ситуациях предпочтение одного перед другим - это вопрос изложения, а не метода.
Конечно, экспозиция важна, но я думаю, что это был бы довольно хороший аргумент. Аккуратно и понятно объяснить оба подхода как повторение одного и того же вывода с разных точек зрения. (То обстоятельство, что не все интервальные оценки являются инвертированными тестами, является, с педагогической точки зрения, не элегантным, но не особенно неудобным фактом)
Гораздо более серьезные последствия вытекают из решения обуславливать наблюдения, как указано выше. Тем не менее, даже в ретрите Frequentist всегда мог наблюдать, что есть множество ситуаций (возможно, не большинство), где обусловливание наблюдений было бы неразумным или неосвещающим. Для них настройка HT / CI (а не «есть») именно то, что нужно, и ее следует преподавать как таковой.
источник
Преподавая тестирование гипотезы Неймана Пирсона студентам, занимающимся ранней статистикой, я часто пытался найти его в его первоначальной обстановке: в принятии решений. Тогда инфраструктура ошибок типа 1 и 2 имеет смысл, как и идея, что вы можете принять нулевую гипотезу.
Мы должны принять решение, мы думаем, что результат нашего решения может быть улучшен за счет знания параметра, у нас есть только оценка этого параметра. Нам еще предстоит принять решение. Тогда какое лучшее решение следует принять в контексте оценки параметра?
Мне кажется, что в своем первоначальном виде (принятие решений в условиях неопределенности) проверка гипотезы NP имеет смысл. См., Например, N & P 1933, в частности, стр. 291.
Нейман и Пирсон. К проблеме наиболее эффективных тестов статистических гипотез. Философские труды Лондонского королевского общества. Серия A, содержащая статьи математического или физического характера (1933), вып. 231 с. 289-337
источник
Проверка гипотез - это полезный способ сформулировать множество вопросов: эффект лечения нулевой или ненулевой? Я считаю, что способность между такими утверждениями и статистической моделью или процедурой (включая построение интервальной оценки) важна для практиков.
Следует также упомянуть, что доверительный интервал (в традиционном смысле) по своей природе не менее «склонен к греху», чем проверка гипотез - сколько студентов-знакомых знакомо с настоящим определением доверительного интервала?
Возможно, проблема не в проверке гипотезы или оценке интервала, а в классических версиях того же самого; Байесовская формулировка избегает этого довольно хорошо.
источник
Причина в принятии решений. В большинстве решений вы либо делаете это, либо нет. Вы можете продолжать смотреть на интервалы в течение всего дня, в конце концов, есть момент, когда вы решаете сделать это или нет.
Проверка гипотез прекрасно вписывается в эту простую реальность ДА / НЕТ.
источник