Следующий отрывок из записи: В чем различия между односторонним и двусторонним тестами? , на сайте помощи статистики UCLA.
... рассмотреть последствия пропуска эффекта в другом направлении. Представьте, что вы разработали новый препарат, который, по вашему мнению, является улучшением по сравнению с существующим препаратом. Вы хотите максимизировать свою способность обнаруживать улучшение, поэтому вы выбираете односторонний тест. При этом вы не сможете проверить, что новый препарат менее эффективен, чем существующий.
Изучив абсолютные основы проверки гипотез и узнав, что такое один против двухсторонних тестов ... Я понимаю основы математики и повышенную способность обнаружения односторонних тестов и т. Д. Но я просто не могу обернуться вокруг своей головы вокруг одного ... Какой смысл? Я действительно не понимаю, почему вы должны разделить свою альфу между двумя крайностями, если ваш примерный результат может быть только в одном или другом, или ни в одном.
Возьмите пример сценария из приведенного выше текста. Как вы могли «не проверить» результат в противоположном направлении? Вы имеете в виду ваш образец. Вы имеете в виду свое население. Простая арифметика говорит вам, что выше. Что можно проверить или не проверить в обратном направлении? Что мешает вам просто начинать с нуля с противоположной гипотезы, если вы ясно видите, что выборочное среднее значение далеко в другом направлении?
Еще одна цитата с той же страницы:
Выбор одностороннего теста после выполнения двухстороннего теста, который не смог отклонить нулевую гипотезу, не подходит, независимо от того, насколько «близким» к значительному был двусторонний тест.
Я предполагаю, что это также относится к переключению полярности вашего одностороннего теста. Но как этот «сфокусированный» результат может быть менее достоверным, чем если бы вы просто выбрали правильный односторонний тест?
Очевидно, я упускаю большую часть картины здесь. Все это кажется слишком произвольным. Это, я полагаю, в том смысле, что то, что означает «статистически значимый» - 95%, 99%, 99,9% ... Произвольно для начала.
источник
Ответы:
Думайте о данных как о вершине айсберга - все, что вы можете видеть над водой, это верхушка айсберга, но в действительности вы заинтересованы в том, чтобы узнать что-то обо всем айсберге.
Статистики, ученые, работающие с данными, и другие, работающие с данными, стараются не допустить, чтобы то, что они видят над линией воды, повлияло на их оценку того, что скрыто за линией воды. По этой причине в ситуации проверки гипотез они склонны формулировать свои нулевые и альтернативные гипотезы, прежде чем они увидят верхушку айсберга, основываясь на своих ожиданиях (или их отсутствии) того, что может произойти, если они смогут увидеть айсберг полностью. ,
Просмотр данных для формулирования ваших гипотез - плохая практика, и ее следует избегать - это все равно что ставить телегу перед лошадью. Напомним, что данные поступают из одной выбранной выборки (возможно, с использованием механизма случайного выбора) из целевой популяции / вселенной, представляющей интерес. Выборка имеет свои особенности, которые могут отражать или не отражать основную популяцию. Почему вы хотите, чтобы ваши гипотезы отражали узкую часть населения вместо всего населения?
Еще один способ думать об этом заключается в том, что каждый раз, когда вы выбираете выборку из целевой группы (используя механизм случайного выбора), выборка будет давать разные данные. Если вы используете данные (которые вы не должны !!!), чтобы руководить своей спецификацией нулевых и альтернативных гипотез, ваши гипотезы будут по всей карте, в основном обусловленные уникальными особенностями каждого образца. Конечно, на практике мы рисуем только одну выборку, но было бы очень тревожно подумать, что если кто-то еще проведет такое же исследование с другой выборкой того же размера, ему придется изменить свои гипотезы, чтобы отразить реальности их образец.
У одного из профессоров моей аспирантуры было очень мудрое изречение: «Мы не заботимся о выборке, за исключением того, что она говорит нам кое-что о населении» . Мы хотим сформулировать наши гипотезы, чтобы узнать что-то о целевой группе населения, а не об одной выборке, которую мы случайно выбрали из этой группы.
источник
Я думаю, что при рассмотрении вашего вопроса будет полезно, если вы попытаетесь помнить цель / точки продаж тестирования значимости нулевой гипотезы (NHST); это всего лишь одна парадигма (хотя и очень популярная) для статистического вывода, а у других также есть свои сильные стороны (например, см. здесь для обсуждения NHST относительно байесовского вывода). Что является большим преимуществом NHST ?: Долгосрочный контроль ошибок . Если вы следуете правилам NHST (а иногда это очень важно), у вас должно быть четкое представление о том, насколько вероятно, что вы ошибетесь в своих выводах в долгосрочной перспективе.
Одно из самых строгих правил NHST заключается в том, что без каких-либо изменений в вашей процедуре тестирования вам достаточно одного взгляда на интересующий вас тест. Исследователи на практике часто игнорируют (или не знают) это правило (см Симмонс и др., 2012), проведение нескольких тестов после добавления волны данных, проверяя ихp -значения после добавления / удаления переменных в их моделях и т. д. Проблема в том, что исследователи редко бывают нейтральными в отношении результатов НХСТ; они прекрасно понимают, что значимые результаты, скорее всего, будут опубликованы, чем несущественные результаты (по причинам, которые являются ошибочными и законными; Rosenthal, 1979). Поэтому исследователи часто мотивируют добавлять данные / изменять модели / выбирать выбросы и многократно проверять, пока они не «обнаружат» значительный эффект (см. John et al., 2011, хорошее введение).
Противоречивая проблема создается вышеупомянутыми методами, хорошо описанными в Dienes (2008): если исследователи будут продолжать корректировать свои выборку / дизайн / модели до тех пор, пока их значение не будет достигнуто, то их желаемые долгосрочные коэффициенты ошибок ложноположительных результатов (часто ) и ложноотрицательные результаты (часто ) будут подходить к 1.0 и 0.0 соответственно (т.е. вы всегда будете отклонять , как когда оно ложно, так и когда оно истинно).β = .20 H 0α=.05 β=.20 H0
В контексте ваших конкретных вопросов исследователи используют двухсторонние тесты по умолчанию, когда они не хотят делать конкретные прогнозы относительно направления эффекта. Если они ошибаются в своих предположениях и запускают односторонний тест в направлении эффекта, их долгосрочная будет завышена. Если они посмотрят на описательную статистику и проведут односторонний тест, основанный на их взгляде на тренд, их долгосрочная будет завышена. Вы можете подумать, что на практике это не большая проблема, что теряют свое долгосрочное значение, но если они не сохраняют свое значение, возникает вопрос о том, почему вы используете подход к выводу, что отдает приоритет долгосрочному контролю ошибок.α pα α p
И наконец (и из личных предпочтений) у меня будет меньше проблем, если вы сначала проведете двусторонний тест, обнаружите его несущественным, затем выполните односторонний тест в направлении, подразумеваемом первым тестом, и было установлено, что это важно, если (и только если) вы выполнили строгую подтверждающую репликацию этого эффекта в другом образце и опубликовали репликацию в том же документе. Исследовательский анализ данных - с гибкостью, надувающей гибкую практику анализа, - это хорошо, если вы в состоянии воспроизвести свой эффект в новой выборке без той же аналитической гибкости.
Рекомендации
Dienes, Z. (2008). Понимание психологии как науки: введение в научный и статистический вывод . Пальгрейв Макмиллан.
John, LK, Loewenstein, G. & Prelec, D. (2012). Измерение распространенности сомнительных исследовательских практик со стимулами для правды. Психологическая наука , 23 (5), 524-532.
Розенталь Р. (1979). Проблема с выдвижным ящиком и допуск для нулевых результатов. Психологический вестник , 86 (3), 638.
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука , 22 (11), 1359-1366.
источник
К сожалению, мотивирующий пример разработки лекарств не очень хороший, поскольку мы не занимаемся разработкой лекарств. Мы используем разные, более строгие правила, чтобы остановить исследование, если тенденции на стороне вреда. Это для безопасности пациентов, а также потому, что лекарство вряд ли может волшебным образом качаться в направлении значимой пользы.
Так почему же два хвостовых теста ? (когда в большинстве случаев мы имеем некоторое априорное представление о возможном направлении воздействия, которое мы пытаемся смоделировать)
Нулевая гипотеза должна иметь некоторое сходство с верой в смысле правдоподобности, информированности и обоснованности. В большинстве случаев люди соглашаются, что «неинтересный результат» - это когда эффект 0, тогда как отрицательный или положительный эффект представляет равный интерес. Очень сложно сформулировать составную нулевую гипотезу, например, случай, когда мы знаем, что статистика может быть равна илименьше определенной суммы. Нужно быть очень недвусмысленным в отношении нулевой гипотезы, чтобы понять их научные выводы. Стоит отметить, что метод проверки составной гипотезы заключается в том, что статистика в рамках нулевой гипотезы принимает наиболее согласованное значение в диапазоне наблюдаемых данных. Так что, если эффект в положительном направлении, как и ожидалось, нулевое значение в любом случае принимается равным 0, и мы бесполезно поставили вопрос.
Двухсторонний тест означает проведение двух односторонних тестов с контролем для множественных сравнений! Двухсторонний тест на самом деле частично оценен, потому что в конечном итоге он становится более консервативным. Когда у нас есть четкое представление о направлении эффекта, два хвостатых теста дадут ложные положительные результаты в два раза реже с очень небольшим общим влиянием на мощность.
В случае оценки лечения в рандомизированном контролируемом исследовании, если вы попытаетесь продать мне односторонний тест, я перестану вас спрашивать: «Ну, подожди, почему мы считаем, что лечение на самом деле вредно? чтобы поддержать это? Есть ли даже уравновешенность [способность продемонстрировать полезный эффект]? " Логическая несогласованность одностороннего теста ставит под сомнение все исследование. Если действительно ничего не известно, любое значение, отличное от 0, считается интересным, и двухсторонний тест - это не просто хорошая идея, это необходимо.
источник
Один из способов подойти к этому - временно забыть о проверке гипотез и вместо этого подумать о доверительных интервалах. Односторонние тесты соответствуют односторонним доверительным интервалам, а двусторонние тесты соответствуют двусторонним доверительным интервалам.
Предположим, что вы хотите оценить среднее значение популяции. Естественно, вы берете образец и вычисляете среднее значение образца. Нет смысла брать точную оценку по номиналу, поэтому вы выражаете свой ответ через интервал, который, как вы уверены, содержит истинное среднее значение. Какой тип интервала вы выбираете? Двусторонний интервал, безусловно, является более естественным выбором. Односторонний интервал имеет смысл только тогда, когда вам просто не нужно находить верхнюю или нижнюю границу вашей оценки (потому что вы считаете, что уже знаете полезную границу в одном направлении). Как часто вы действительно уверены в ситуации?
Возможно, переключение вопроса на доверительные интервалы на самом деле не закрепляет его, но методологически непоследовательно предпочитать односторонние тесты, а двусторонние доверительные интервалы
источник
Проблема в том, что вы не знаете, что значит население. Я никогда не сталкивался с реальным сценарием реального мира, который я знаю, истинное население означает.
Я прочитал твой абзац несколько раз, но я все еще не уверен в твоих аргументах. Вы хотите перефразировать это? Вы не можете «проверить», не попадают ли ваши данные в выбранные вами критические регионы.
Цитата верна, потому что взлом p-значения неуместен. Как много мы знаем о p-хакерстве "в дикой природе"? имеет больше деталей.
Это произвольно. Вот почему ученые, как правило, сообщают величину самого значения p (не только значимого или незначительного), а также величину эффекта.
источник
Ну, все различия зависят от вопроса, на который вы хотите ответить. Если вопрос звучит так: «Является ли одна группа ценностей больше другой?» Вы можете использовать односторонний тест. Чтобы ответить на вопрос: «Отличаются ли эти группы ценностей?» Вы используете двухсторонний тест. Примите во внимание, что набор данных может быть статистически выше, чем другой, но не статистически отличаться ... и это статистика.
источник
Альфа-значение - это вероятность того, что вы отклоните значение NULL, учитывая, что значение NULL равно true. Предположим, что ваш ноль в том, что среднее значение выборки обычно распределяется со средним нулем. Если P (выборочное среднее> 1 | H0) = 0,05, то правило «Собрать выборку и отклонить нулевое значение, если среднее значение выборки больше 1» имеет вероятность, учитывая, что нулевое истинное значение, составляет 5% от отклоняя ноль. Правило «Собрать выборку, и если среднее значение выборки является положительным, отклонить нулевое значение, если среднее значение выборки больше 1, а если среднее значение выборки отрицательное, отклонить нулевое значение, если среднее значение выборки меньше 1», имеет вероятность того, что нулевое значение истинно, составляет 10% от отклонения нулевого значения. Таким образом, первое правило имеет альфа 5%, а второе правило имеет альфа 10%. Если вы начнете с двустороннего теста, и затем измените его на односторонний тест, основанный на данных, затем вы следуете второму правилу, поэтому было бы неточно сообщать о вашей альфе как 5%. Альфа-значение зависит не только от данных, но и от того, какие правила вы соблюдаете при их анализе. Если вы спрашиваете, зачем использовать метрику с этим свойством, а не то, что зависит только от данных, это более сложный вопрос.
источник
Относительно 2-го пункта
у нас есть то, что, если null равен true, первый двусторонний тест ложно отклоняется с вероятностью , но односторонний может также отклоняться на втором этапе.α
Таким образом, общая вероятность отклонения будет превышать , и вы не будете тестировать на том уровне, который, по вашему мнению, тестируете больше - вы чаще получаете ложные отклонения, чем в случаев, когда стратегия применяется к истинные нулевые гипотезы.α α⋅100%
В целом, мы ищем которые мы можем выразить как Два события в объединении не пересекаются, так что мы после Для второго слагаемого существует вероятностная масса между верхним и квантилями (т. е. точки отклонения односторонние и двусторонние тесты), то есть совместная вероятность того, что двусторонний тест не отклонит, а односторонний. Следовательно,
Вот небольшая числовая иллюстрация:
источник
Это всего лишь один произвольный способ взглянуть на это: для чего используется статистический тест? Вероятно, наиболее частая причина для проведения теста - это то, что вы хотите убедить людей (например, редакторов, рецензентов, читателей, аудиторию), что ваши результаты «достаточно случайны», чтобы их можно было отметить. И как-то мы пришли к выводу, что - произвольная, но все же универсальная истина.p<α=0.05
Для любой другой разумной причины для проведения испытаний, вы бы никогда не соглашайтесь на фиксированном от , но вы бы разнообразить от случая к случаю, в зависимости от того, насколько важны были последствия, что вы рисуете из теста.0,05 αα 0.05 α
Вернемся к убеждению людей, что что-то «достаточно далеко от случайного», чтобы соответствовать универсальному критерию значимости. У нас есть нечувствительный, но общепринятый критерий, который мы считаем «не случайным» при для двустороннего тестированияα=0.05 . Эквивалентным критерием было бы посмотреть на данные, решить, какой способ проверить, и провести линию при . Второй эквивалентен первому, но это не то, с чем мы исторически обосновались.α=0.025
Как только вы начинаете делать односторонние тесты с вы начинаете подозревать неуместное поведение или ловкость значимости. Не делай этого, если хочешь убедить людей!α=0.05
Тогда, конечно, есть такая вещь, называемая исследователями степенью свободы . Вы можете найти значение в любом виде данных, если у вас есть достаточно данных и вы можете протестировать их так, как пожелаете. Вот почему вы должны принять решение о проведении теста, прежде чем посмотреть на данные. Все остальное приводит к невоспроизводимым результатам испытаний. Я советую зайти на youtube и посмотреть на выступление Эндрю Гелманса «Преступления по данным», чтобы узнать больше об этом.
источник
На первый взгляд, ни одно из этих утверждений не утверждает, что двусторонний тест «превосходит» одностороннее исследование. Просто должна быть логическая связь между исследуемой гипотезой, связанной с проверяемым статистическим выводом.
Например:
Прежде всего, это исследование наркотиков. Поэтому неправильность в обратном направлении имеет социальное значение вне рамок статистики. Поэтому, как многие говорили, здоровье не является лучшим для обобщения.
В приведенной выше цитате речь идет о тестировании препарата, когда другой уже существует. Поэтому для меня это означает, что ваш препарат считается уже эффективным. Утверждение касается сравнения двух эффективных лекарств после этого. При сравнении этих распределений, если вы пренебрегаете одной стороной населения ради улучшения ее сравнительных результатов? Это не только предвзятый вывод, но сравнение уже не является обоснованным: вы сравниваете яблоки с апельсинами.
Точно так же вполне могут быть точечные оценки, которые ради статистического вывода не имеют никакого значения для заключения, но имеют большое социальное значение. Это потому, что наш образец представляет жизни людей: то, что не может «повториться» и является бесценным.
С другой стороны, это утверждение подразумевает, что у исследователя есть стимул: «вы хотите максимизировать свою способность обнаруживать улучшение ...». Это понятие нетривиально, если случай изолирован как плохой протокол.
Опять же, здесь подразумевается, что исследователь «переключает» свой тест: с двустороннего на односторонний. Это никогда не подходит. Обязательно иметь цель исследования перед тестированием. Всегда игнорируя удобство двухстороннего подхода, исследователи не могут более точно понять это явление.
Вот статья, посвященная этой самой теме, которая фактически доказывает, что двусторонние тесты были чрезмерно использованы.
Он обвиняет в чрезмерном использовании двустороннего теста из-за отсутствия:
Он занимает позицию и позицию исследователей:
https://www.sciencedirect.com/science/article/pii/S0148296312000550
источник
Часто тест значимости проводится для нулевой гипотезы против альтернативной гипотезы . Это когда однохвостый против двухвостого имеют значение.
Для значений p это (двухстороннее или одностороннее) не имеет значения! Дело в том, что вы выбираете критерий, который встречается только в доле от времени, когда нулевая гипотеза верна. Это либо два маленьких куска обоих хвостов, либо один большой кусок одного хвоста, или что-то еще.α
Тип ошибки I не отличается для одного или двух сторонних тестов.
С другой стороны, для власти это имеет значение .
Если ваша альтернативная гипотеза асимметрична, то вы бы хотели сфокусировать критерий, чтобы отклонить нулевую гипотезу только на этом хвосте / конце; так что, когда альтернативная гипотеза верна, вы с меньшей вероятностью не отвергнете («примете») нулевую гипотезу.
Если ваша альтернативная гипотеза симметрична (вам не нужно размещать больше или меньше энергии на одной конкретной стороне), и отклонение / эффект с обеих сторон одинаково ожидаемы (или просто неизвестны / не информированы), тогда более эффективно использовать двусторонний тест (вы не теряете 50% мощности для хвоста, который вы не тестируете и где вы допустите много ошибок типа II).
Тип ошибки II отличается для односторонних и двусторонних тестов, а также в зависимости от альтернативной гипотезы.
Это становится все более похожим на байесовскую концепцию сейчас, когда мы начинаем включать предвзятые мнения о том, ожидаем ли мы, что эффект упадет с одной или с двух сторон, и когда мы хотим использовать тест (чтобы увидеть, можем ли мы фальсифицировать нулевая гипотеза) «подтвердить» или сделать более вероятным что-то вроде эффекта.
источник
Итак, еще одна попытка ответа:
Я предполагаю, брать ли односторонний или двусторонний, полностью зависит от альтернативной гипотезы.
Рассмотрим следующий пример тестирования среднего значения в t-тесте:
Теперь, если вы наблюдаете очень отрицательное среднее значение выборки или очень положительное среднее значение выборки, ваша гипотеза вряд ли будет верной.
С другой стороны, вы будете готовы принять свою гипотезу, если ваше среднее значение выборки близко к , отрицательное или положительное . Теперь вам нужно выбрать интервал, в котором, если ваше среднее значение выборки упадет, вы не отклоните свою нулевую гипотезу. Очевидно, вы бы выбрали интервал, который имеет как отрицательные, так и положительные стороны около . Таким образом, вы выбираете двусторонний тест.0 0
Но что, если вы не хотите проверять , а . Теперь интуитивно, что мы хотим сделать здесь, это то, что если значение выборки означает очень отрицательное, то мы можем определенно отклонить наш нуль. Таким образом, мы хотели бы отклонить ноль только для дальних отрицательных значений выборочного среднего.μ=0 μ≥0
Но ждать! Если это моя нулевая гипотеза, как бы я установил свое нулевое распределение? Нулевое распределение среднего значения выборки известно для некоторого предполагаемого значения параметра совокупности (здесь ). Но при текущем нуле это может принимать много значений.0
Допустим, мы можем сделать бесконечные нулевые гипотезы. Каждый для принятия положительного значения . Но подумайте об этом: в нашей первой гипотезе , если мы отвергаем ноль только при наблюдении очень далекого отрицательного среднего значения выборки, то каждая следующая гипотеза с также отвергнет его. Потому что для них среднее значение выборки еще дальше от параметра населения. В общем, все, что нам нужно сделать, это сделать одну гипотезу, но одностороннюю .μ H0:μ=0 H0:μ>0
Таким образом, ваше решение становится:
Лучший пример - тест Дики-Фуллера на стационарность.
Надеюсь это поможет. (Хотел включить диаграммы, но отвечал с мобильного).
источник