Существует определенная школа мысли, согласно которой наиболее распространенный подход к статистическому тестированию представляет собой «гибрид» между двумя подходами: подход Фишера и Неймана-Пирсона; эти два подхода, как утверждается в заявлении, являются «несовместимыми», и, следовательно, получающийся в результате «гибрид» представляет собой «несвязную путаницу». Я предоставлю библиографию и некоторые цитаты ниже, но пока достаточно сказать, что об этом много написано в статье в Википедии о статистическом тестировании гипотез . Здесь, в резюме, этот момент неоднократно высказывался @Michael Lew (см. Здесь и здесь ).
Мой вопрос: почему F и NP подходы, как утверждается, несовместимы, и почему гибрид считается несогласованным? Обратите внимание, что я прочитал по крайней мере шесть антигибридных статей (см. Ниже), но все еще не понимаю проблемы или аргумента. Также обратите внимание, что я не предлагаю обсуждать, является ли F или NP лучшим подходом; Я также не предлагаю обсуждать частые и байесовские рамки. Вместо этого возникает вопрос: если признать, что и F, и NP являются правильными и значимыми подходами, что такого плохого в их гибриде?
Вот как я понимаю ситуацию. Подход Фишера состоит в том, чтобы вычислить значение и принять его в качестве доказательства против нулевой гипотезы. Чем меньше , тем убедительнее доказательства. Исследователь должен объединить эти данные с его фоновыми знаниями, решить , если это является убедительным достаточно , и действовать соответствующим образом . (Обратите внимание, что взгляды Фишера менялись с годами, но это то, к чему он, по-видимому, в конце концов и приблизился.) Напротив, подход Неймана-Пирсона заключается в том, чтобы заранее выбрать и затем проверить, является лиp α p ≤ α; если это так, назовите это значимым и отвергните нулевую гипотезу (здесь я опускаю большую часть истории NP, которая не имеет отношения к текущей дискуссии). См. Также отличный ответ @gung в разделе « Когда использовать рамки Фишера и Неймана-Пирсона»?
Гибридный подход состоит в том, чтобы вычислить значение, сообщить о нем (неявно предполагая, что чем меньше, тем лучше), а также назвать результаты значительными, если (обычно ), и несущественными в противном случае. Это должно быть бессвязным. Как может быть недопустимо делать две правильные вещи одновременно, бьет меня.p ≤ α α = 0,05
В частности, антигибридисты считают, что широко распространенная практика представления значений - , или (или даже ), где всегда выбирается самое сильное неравенство. Аргумент, по-видимому, заключается в том, что (а) достоверность доказательств не может быть должным образом оценена, поскольку точное значение не сообщается, и (б) люди склонны интерпретировать правое число в неравенстве как и рассматривать его как ошибку типа I Оцените, и это неправильно. Я не вижу здесь большой проблемы. Во-первых, указание точного значения , безусловно, является лучшей практикой, но на самом деле никому нет дела , например, если равно илир < 0,05 р < 0,01 р < 0,001 р « 0,0001 р α р р 0,02 0,03 , так что округление его в логарифмическом масштабе не так уж плохо (и, в любом случае, опускание ниже не имеет смысла, см. Как сообщать о крошечных p-значениях? ). Во-вторых, если согласие состоит в том, чтобы назвать все ниже значимым, тогда коэффициент ошибок будет и , как объясняет @gung в разделе Интерпретация значения p при проверке гипотез . Несмотря на то, что это потенциально запутанная проблема, она не кажется мне более запутанной, чем другие вопросы статистического тестирования (за пределами гибрида). Кроме того, каждый читатель может иметь в виду свою любимую при чтении гибридной статьи и, как следствие, собственную частоту ошибок.α = 0,05 р ≠ αТак в чем же дело?
Одна из причин, по которой я хочу задать этот вопрос, заключается в том, что буквально больно видеть, сколько статей в Википедии о статистическом тестировании гипотез посвящено гибриду гибрида. Вслед за Halpin & Stam он утверждает, что виноват некий Линдквист (в его учебнике даже есть большое сканирование с «ошибками», выделенными желтым цветом), и, конечно, вики-статья о самом Линдквисте начинается с того же обвинения. Но тогда, может быть, я что-то упустил.
Рекомендации
Gigerenzer, 1993, Суперэго, Эго и Ид в статистических рассуждениях - ввел термин «гибрид» и назвал его «бессвязной мешаниной»
- См. Также более поздние экспозиции Gigerenzer и др .: например, статистика Mindless (2004) и Null Ritual. Что вы всегда хотели знать о значимости тестирования, но боялись спросить (2004).
Коэн, 1994, «Земля круглая» ( ) - очень популярная статья с почти 3 тыс. Цитат, в основном о разных проблемах, но благоприятно цитирующая Гигеренцер
Гудман, 1999, На пути к доказательной медицинской статистике. 1: ошибка значения P
Хаббард и Баярри, 2003, Путаница в отношении показателей доказательств ( ) и ошибок ( ) в классическом статистическом тестированииα - одна из наиболее красноречивых статей, выступающих против «гибрида»
Halpin & Stam, 2006, « Индуктивный вывод» или «Индуктивное поведение: подходы Фишера и Неймана-Пирсона к статистическому тестированию в психологических исследованиях» (1940-1960) [бесплатно после регистрации] - обвиняет учебник Линдквиста за 1940 год за введение «гибридного» подхода
@Michael Lew, 2006, Плохая статистическая практика в фармакологии (и других основных биомедицинских дисциплинах): вы, вероятно, не знаете P - хороший обзор и обзор
Котировки
Гигеренцер: То, что стало логическим выводом в психологии, не является статистикой рыболовства. Это бессвязная путаница некоторых идей Фишера, с одной стороны, и некоторых идей Неймана и Е.С. Пирсона, с другой. Я называю эту смесь «гибридной логикой» статистического вывода.
Гудман: Подход к проверке гипотез [Неймана-Пирсона] предложил ученым выгодную сделку Фауста - казалось бы, автоматический способ ограничить число ошибочных выводов в долгосрочной перспективе, но только путем отказа от способности измерять доказательства [по-фишеровски] и оценивать правда из одного эксперимента.
Хаббард и Баярри: Классическое статистическое тестирование - это анонимный гибрид конкурирующих и часто противоречивых подходов [...]. В частности, существует широко распространенная ошибка в оценке несовместимости доказанного значения Фишера частотой ошибок типа I статистической ортодоксальности Неймана-Пирсона. [...] В качестве основного примера недоумения, вызванного [этим] смешением [...], рассмотрим широко недооцененный факт, что значение первого из них несовместимоα pс тестом гипотезы Неймана-Пирсона, в котором он стал встроенным. [...] Например, Гиббонс и Пратт ошибочно заявили: «Сообщение о значении P, точное или в пределах интервала, фактически позволяет каждому индивидууму выбирать свой собственный уровень значимости в качестве максимально допустимой вероятности ошибки типа I ".
Halpin & Stam: текст Линдквиста 1940 года был первоначальным источником гибридизации подходов Фишера и Неймана-Пирсона. [...] вместо того, чтобы придерживаться какой-либо конкретной интерпретации статистического тестирования, психологи по-прежнему сомневаются в концептуальных трудностях, связанных с противоречиями Фишера и Неймана-Пирсона, и, по сути, не знают о них.
Лью: То, что у нас есть, - это гибридный подход, который не контролирует частоту ошибок и не позволяет оценить достоверность доказательств.
источник
Ответы:
Я считаю, что документы, статьи, посты и т. Д., Которые вы тщательно собрали, содержат достаточно информации и анализа относительно того, где и почему эти два подхода различаются. Но быть другим не значит быть несовместимым .
Проблема с «гибридом» заключается в том, что он является гибридом, а не синтезом , и поэтому многие воспринимают его как гибрид , если вы извините игру слов.
Не являясь обобщением, он не пытается объединить различия двух подходов и либо создать один единый и внутренне согласованный подход, либо оставить оба подхода в научном арсенале в качестве дополнительных альтернатив, чтобы более эффективно справляться с очень сложными мир, который мы пытаемся проанализировать с помощью статистики (к счастью, это последнее, что, похоже, происходит с другой великой гражданской войной на местах, частой и байесовской).
Я считаю, что неудовлетворенность этим объясняется тем фактом, что оно действительно породило недопонимание в применении статистических инструментов и интерпретации статистических результатов , главным образом учеными, которые не являются статистиками , недопонимание, которое может иметь очень серьезные и разрушительные последствия (размышления о медицины помогает придать проблеме соответствующий драматический тон). Это неправильное применение, как я полагаю, широко принимается как факт - и в этом смысле «антигибридная» точка зрения может рассматриваться как широко распространенная (по крайней мере, из-за последствий, которые она имела, если бы не ее методологические проблемы).
Я рассматриваю эволюцию вопроса как историческую случайность (но у меня нет значения или области отклонения для моей гипотезы) из-за неудачной битвы между основателями. Фишер и Нейман / Пирсон десятилетиями горько и публично боролись за свои подходы. Это создало впечатление, что здесь дихотомический вопрос: один подход должен быть «правильным», а другой - «неправильным».p
Я полагаю, что гибрид возник из осознания того, что такого простого ответа не существует, и что существуют явления реального мира, для которых один подход подходит лучше, чем другой (см. Этот пост для такого примера, по моему мнению в по крайней мере, где подход Fisherian кажется более подходящим). Но вместо того, чтобы держать два «отдельных и готовых к действиям», они были довольно излишне скреплены вместе.
Я предлагаю источник, который резюмирует этот «дополнительный альтернативный» подход: Spanos, A. (1999). Теория вероятностей и статистический вывод: эконометрическое моделирование с данными наблюдений. Издательство Кембриджского университета. , гл. 14 , особенно раздел 14.5, где после формального и четкого представления двух подходов автор может четко указать на их различия, а также утверждать, что их можно рассматривать как дополнительные альтернативы.
источник
Мой собственный взгляд на мой вопрос заключается в том, что нет ничего особенно не связанного с гибридным (то есть принятым) подходом. Но так как я не был уверен, что, может быть, я не смог понять обоснованность аргументов, представленных в антигибридных документах, я был рад найти обсуждение, опубликованное вместе с этой статьей:
К сожалению, два ответа, опубликованные в виде обсуждения, не были отформатированы как отдельные статьи и поэтому не могут быть должным образом процитированы. Тем не менее, я хотел бы процитировать их обоих:
Оба ответа очень стоит прочитать. Существует также реплика первоначальных авторы, которые не звучат убедительно мне вообще .
источник
Я боюсь, что для реального ответа на этот превосходный вопрос потребуется полная статья. Однако вот пара моментов, которых нет ни в вопросе, ни в текущих ответах.
Частота ошибок «принадлежит» процедуре, но доказательство «принадлежит» экспериментальным результатам. Таким образом, при многоэтапных процедурах с правилами последовательной остановки возможно получить результат с очень убедительными доказательствами против нулевой гипотезы, но несущественным результатом проверки гипотезы. Это можно считать сильной несовместимостью.
Если вас интересуют несовместимости, вы должны быть заинтересованы в основных принципах. Философская трудность заключается в выборе между соответствием принципу правдоподобия и соблюдением принципа повторного отбора проб. LP говорит, что, учитывая статистическую модель, данные в наборе данных, относящиеся к интересующему параметру, полностью содержатся в соответствующей функции правдоподобия. RSP говорит, что следует отдавать предпочтение тестам, которые в долгосрочной перспективе дают частоты ошибок, равные их номинальным значениям.
источник
Часто встречающийся (и предположительно принятый) союз (или лучше: «гибрид») между двумя подходами выглядит следующим образом:
Если значение р не достаточно мало, вы бы сказали
Здесь аспекты от Неймана-Пирсона:
Рыболовные аспекты:
ДОБАВИТЬ
Хотя полезно знать о дискуссии о философских проблемах подхода Фишера, Н.П. или этого гибридного подхода (как некоторые преподают в почти религиозном безумии), в статистике есть гораздо более актуальные вопросы, с которыми нужно бороться:
источник
Краткий ответ: использование нулевой (без разницы, без корреляции) нулевой гипотезы независимо от контекста. Все остальное - «злоупотребление» людьми, которые создали для себя мифы о том, чего может достичь этот процесс. Мифы возникают из-за того, что люди пытаются согласовать свое (иногда уместное) использование доверия к авторитету и консенсусной эвристики с неприменимостью процедуры к их проблеме.
Насколько я знаю, Герд Гигеренцер придумал термин «гибрид»:
Gigerenzer, G (ноябрь 2004 г.) « Бессмысленная статистика ». Журнал социально-экономических 33 (5): 587–606. DOI: 10.1016 / j.socec.2004.09.033.
Редактировать: И мы всегда должны упоминать, потому что «гибрид» настолько скользкий и плохо определенный, что использование нулевого нуля для получения p-значения прекрасно подходит для сравнения размеров эффекта при разных размерах выборки. Это «тестовый» аспект, который представляет проблему.
Изменить 2: @amoeba Значение p может быть хорошим в качестве сводной статистики, в этом случае нулевая нулевая гипотеза является просто произвольным ориентиром: http://arxiv.org/abs/1311.0081 . Однако, как только вы начинаете пытаться сделать вывод или принять решение (то есть «проверить» нулевую гипотезу), он перестает иметь смысл. В примере сравнения двух групп мы хотим знать, насколько разные две группы и какие могут быть возможные объяснения различий этой величины и типа.
Значение p можно использовать в качестве сводной статистики, сообщающей нам величину разности. Однако использование его для «опровержения / отклонения» нулевой разницы не имеет смысла, о чем я могу сказать. Кроме того, я думаю, что многие из этих планов исследований, которые сравнивают средние измерения живых существ в один момент времени, ошибочны. Мы должны хотеть наблюдать, как отдельные экземпляры системы изменяются со временем, а затем придумать процесс, который объясняет наблюдаемый паттерн (включая любые групповые различия).
источник
Я вижу, что те, кто обладает большим опытом, чем я, предоставили ответы, но я думаю, что мой ответ может добавить что-то дополнительное, поэтому я предложу это как точку зрения еще одного непрофессионала.
Является ли гибридный подход непоследовательным? Я бы сказал, что это зависит от того, будет или нет исследователь действовать в соответствии с правилами, с которыми они начали: в частности, с правилом да / нет, которое вступает в игру с установкой альфа-значения.
бессвязный
Начните с Неймана-Пирсона. Исследователь устанавливает альфа = 0,05, запускает эксперимент, вычисляет р = 0,052. Исследователь смотрит на это p-значение и, используя вывод Фишера (часто неявно), считает, что результат достаточно несовместим с тестовой гипотезой о том, что они все еще будут утверждать, что «что-то» происходит. Результат как-то «достаточно хорош», хотя значение р было больше, чем значение альфа. Часто это сочетается с такими формулировками, как «почти значимый» или «стремление к значению», или с некоторыми формулировками в том же духе.
Однако установка альфа-значения перед началом эксперимента означает, что был выбран подход индуктивного поведения Неймана-Пирсона. Выбор игнорировать это альфа-значение после вычисления p-значения и, следовательно, утверждение чего-либо все еще является каким-то интересным, подрывает весь подход, с которого начинали. Если исследователь начинает движение по Пути А (Нейман-Пирсон), но затем перепрыгивает на другой путь (Фишер), когда ему не нравится путь, по которому он идет, я считаю это несогласованным. Они не соответствуют (подразумеваемым) правилам, с которых они начали.
Связное (возможно)
Начните с NP. Исследователь устанавливает альфа = 0,05, запускает эксперимент, вычисляет р = 0,0014. Исследователь отмечает, что р <альфа, и, таким образом, отвергает тестовую гипотезу (обычно без эффекта ноль) и принимает альтернативную гипотезу (эффект реален). На этом этапе исследователь, в дополнение к решению рассматривать результат как реальный эффект (NP), решает сделать вывод (Фишер), что эксперимент предоставляет очень убедительные доказательства того, что эффект является реальным. Они добавили нюанс в подход, с которого начали, но не противоречили установленным правилам, выбрав альфа-значение в начале.
Резюме
Если вы начинаете с выбора альфа-значения, тогда вы решили пойти по пути Неймана-Пирсона и следовать правилам этого подхода. Если они в какой-то момент нарушают эти правила, используя в качестве оправдания заключение Фишера, то они действуют непоследовательно / непоследовательно.
Я полагаю, что можно пойти дальше и заявить, что, поскольку возможно использование гибрида некогерентно, следовательно, этот подход по своей сути непоследователен, но, похоже, он углубляется в философские аспекты, которые я не считаю способными даже предложить мнение о.
Шляпная шапка Майклу Лью. Его статья 2006 года помогла мне понять эти проблемы лучше, чем любой другой ресурс.
источник