Является ли «гибрид» между подходами Фишера и Неймана-Пирсона к статистическому тестированию действительно «бессвязной путаницей»?

56

Существует определенная школа мысли, согласно которой наиболее распространенный подход к статистическому тестированию представляет собой «гибрид» между двумя подходами: подход Фишера и Неймана-Пирсона; эти два подхода, как утверждается в заявлении, являются «несовместимыми», и, следовательно, получающийся в результате «гибрид» представляет собой «несвязную путаницу». Я предоставлю библиографию и некоторые цитаты ниже, но пока достаточно сказать, что об этом много написано в статье в Википедии о статистическом тестировании гипотез . Здесь, в резюме, этот момент неоднократно высказывался @Michael Lew (см. Здесь и здесь ).

Мой вопрос: почему F и NP подходы, как утверждается, несовместимы, и почему гибрид считается несогласованным? Обратите внимание, что я прочитал по крайней мере шесть антигибридных статей (см. Ниже), но все еще не понимаю проблемы или аргумента. Также обратите внимание, что я не предлагаю обсуждать, является ли F или NP лучшим подходом; Я также не предлагаю обсуждать частые и байесовские рамки. Вместо этого возникает вопрос: если признать, что и F, и NP являются правильными и значимыми подходами, что такого плохого в их гибриде?


Вот как я понимаю ситуацию. Подход Фишера состоит в том, чтобы вычислить значение и принять его в качестве доказательства против нулевой гипотезы. Чем меньше , тем убедительнее доказательства. Исследователь должен объединить эти данные с его фоновыми знаниями, решить , если это является убедительным достаточно , и действовать соответствующим образом . (Обратите внимание, что взгляды Фишера менялись с годами, но это то, к чему он, по-видимому, в конце концов и приблизился.) Напротив, подход Неймана-Пирсона заключается в том, чтобы заранее выбрать и затем проверить, является лиp α p αppαpα; если это так, назовите это значимым и отвергните нулевую гипотезу (здесь я опускаю большую часть истории NP, которая не имеет отношения к текущей дискуссии). См. Также отличный ответ @gung в разделе « Когда использовать рамки Фишера и Неймана-Пирсона»?

Гибридный подход состоит в том, чтобы вычислить значение, сообщить о нем (неявно предполагая, что чем меньше, тем лучше), а также назвать результаты значительными, если (обычно ), и несущественными в противном случае. Это должно быть бессвязным. Как может быть недопустимо делать две правильные вещи одновременно, бьет меня.p α α = 0,05ppαα=0.05

В частности, антигибридисты считают, что широко распространенная практика представления значений - , или (или даже ), где всегда выбирается самое сильное неравенство. Аргумент, по-видимому, заключается в том, что (а) достоверность доказательств не может быть должным образом оценена, поскольку точное значение не сообщается, и (б) люди склонны интерпретировать правое число в неравенстве как и рассматривать его как ошибку типа I Оцените, и это неправильно. Я не вижу здесь большой проблемы. Во-первых, указание точного значения , безусловно, является лучшей практикой, но на самом деле никому нет дела , например, если равно илир < 0,05 р < 0,01 р < 0,001 р « 0,0001 р α р р 0,02 0,03pp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , так что округление его в логарифмическом масштабе не так уж плохо (и, в любом случае, опускание ниже не имеет смысла, см. Как сообщать о крошечных p-значениях? ). Во-вторых, если согласие состоит в том, чтобы назвать все ниже значимым, тогда коэффициент ошибок будет и , как объясняет @gung в разделе Интерпретация значения p при проверке гипотез . Несмотря на то, что это потенциально запутанная проблема, она не кажется мне более запутанной, чем другие вопросы статистического тестирования (за пределами гибрида). Кроме того, каждый читатель может иметь в виду свою любимую при чтении гибридной статьи и, как следствие, собственную частоту ошибок.0.0001α = 0,05 р α0.05α=0.05pααТак в чем же дело?

Одна из причин, по которой я хочу задать этот вопрос, заключается в том, что буквально больно видеть, сколько статей в Википедии о статистическом тестировании гипотез посвящено гибриду гибрида. Вслед за Halpin & Stam он утверждает, что виноват некий Линдквист (в его учебнике даже есть большое сканирование с «ошибками», выделенными желтым цветом), и, конечно, вики-статья о самом Линдквисте начинается с того же обвинения. Но тогда, может быть, я что-то упустил.


Рекомендации

Котировки

Гигеренцер: То, что стало логическим выводом в психологии, не является статистикой рыболовства. Это бессвязная путаница некоторых идей Фишера, с одной стороны, и некоторых идей Неймана и Е.С. Пирсона, с другой. Я называю эту смесь «гибридной логикой» статистического вывода.

Гудман: Подход к проверке гипотез [Неймана-Пирсона] предложил ученым выгодную сделку Фауста - казалось бы, автоматический способ ограничить число ошибочных выводов в долгосрочной перспективе, но только путем отказа от способности измерять доказательства [по-фишеровски] и оценивать правда из одного эксперимента.

Хаббард и Баярри: Классическое статистическое тестирование - это анонимный гибрид конкурирующих и часто противоречивых подходов [...]. В частности, существует широко распространенная ошибка в оценке несовместимости доказанного значения Фишера частотой ошибок типа I статистической ортодоксальности Неймана-Пирсона. [...] В качестве основного примера недоумения, вызванного [этим] смешением [...], рассмотрим широко недооцененный факт, что значение первого из них несовместимоα ppαpс тестом гипотезы Неймана-Пирсона, в котором он стал встроенным. [...] Например, Гиббонс и Пратт ошибочно заявили: «Сообщение о значении P, точное или в пределах интервала, фактически позволяет каждому индивидууму выбирать свой собственный уровень значимости в качестве максимально допустимой вероятности ошибки типа I ".

Halpin & Stam: текст Линдквиста 1940 года был первоначальным источником гибридизации подходов Фишера и Неймана-Пирсона. [...] вместо того, чтобы придерживаться какой-либо конкретной интерпретации статистического тестирования, психологи по-прежнему сомневаются в концептуальных трудностях, связанных с противоречиями Фишера и Неймана-Пирсона, и, по сути, не знают о них.

Лью: То, что у нас есть, - это гибридный подход, который не контролирует частоту ошибок и не позволяет оценить достоверность доказательств.

амеба говорит восстановить монику
источник
+1 за этот хорошо проработанный (даже долгий) вопрос. Это помогло бы, я думаю, продолжить, чтобы определить, что именно сбивает с толку. Достаточно ли знать, что для Фишера вообще не существует альтернативной гипотезы, тогда как для NP мир возможностей исчерпан как нулевым, так и альтернативным? Мне это кажется довольно бессвязным, но, увы, я все время делаю гибридные вещи, потому что вы не можете избежать, так что это укоренилось.
Момо
2
@Momo: для вас вопрос о том, «что именно сбивает с толку» - ну, сбивает с толку безумие антигибридной риторики. «Некогерентная мешанина» - это сильные слова, поэтому я хотел бы видеть довольно серьезное несоответствие. То, что вы сказали об альтернативной гипотезе, не звучит как таковое для меня (в случае садового разнообразия альтернатива, очевидно, , и я не вижу много места для несогласованности), но если я скучаю по вашей точке зрения, то, возможно, вы хотели бы предоставить это в качестве ответа. H 1 : μ 0H0:μ=0H1:μ0
говорит амеба, восстанови Монику
2
Просто прочитав Lew (и осознав, что я прочитал его раньше, вероятно, около 2006 года), я нашел это довольно хорошим, но я не думаю, что это отражает то, как я использую p-значения. Мои уровни значимости - в тех редких случаях, когда я вообще использую проверку гипотез * - всегда на первом этапе, и когда я могу контролировать размер выборки, после рассмотрения мощности, некоторого рассмотрения стоимости двух типов ошибок и т. Д. - по сути Нейман-Пирсон. Я все еще цитирую p-значения, но не в рамках подхода Фишера .... (ctd)
Glen_b
2
(ctd) ... * (Я часто отгоняю людей от проверки гипотез - так часто их актуальные вопросы связаны с измерением эффектов, и на них лучше ответить, построив интервалы). Конкретная проблема, поднятая Лью для «гибридной» процедуры, относится к тому, чем я не занимаюсь, и будет склонна предостерегать людей от этого. Если есть люди, действительно делающие смесь подходов, которые он подразумевает, бумага кажется прекрасной. Более раннее обсуждение значения p-значений и истории подходов кажется превосходным.
Glen_b
1
@Glen_b, исторический обзор Лью очень хороший и ясный, я полностью согласен. Моя проблема связана именно с гибридной проблемой (раздел «Какой подход используется чаще всего?»). Конечно , есть есть люди делают то , что он описывает там, т.е. представления сильнейшего р <.001, <.01 или <.05; Я вижу это все время в нейробиологии. Рассмотрим один из случаев, когда вы используете тестирование. Вы выбираете, например, альфа = .05, и следуйте структуре NP. Когда вы получите p = .00011, ваша уверенность в отношении H1 и ваш выбор формулировки будут отличаться от того, когда вы получили p = .049? Если это так, то это гибрид! Если нет, то как?
говорит амеба, восстанови Монику

Ответы:

16

Я считаю, что документы, статьи, посты и т. Д., Которые вы тщательно собрали, содержат достаточно информации и анализа относительно того, где и почему эти два подхода различаются. Но быть другим не значит быть несовместимым .

Проблема с «гибридом» заключается в том, что он является гибридом, а не синтезом , и поэтому многие воспринимают его как гибрид , если вы извините игру слов.
Не являясь обобщением, он не пытается объединить различия двух подходов и либо создать один единый и внутренне согласованный подход, либо оставить оба подхода в научном арсенале в качестве дополнительных альтернатив, чтобы более эффективно справляться с очень сложными мир, который мы пытаемся проанализировать с помощью статистики (к счастью, это последнее, что, похоже, происходит с другой великой гражданской войной на местах, частой и байесовской).

Я считаю, что неудовлетворенность этим объясняется тем фактом, что оно действительно породило недопонимание в применении статистических инструментов и интерпретации статистических результатов , главным образом учеными, которые не являются статистиками , недопонимание, которое может иметь очень серьезные и разрушительные последствия (размышления о медицины помогает придать проблеме соответствующий драматический тон). Это неправильное применение, как я полагаю, широко принимается как факт - и в этом смысле «антигибридная» точка зрения может рассматриваться как широко распространенная (по крайней мере, из-за последствий, которые она имела, если бы не ее методологические проблемы).

Я рассматриваю эволюцию вопроса как историческую случайность (но у меня нет значения или области отклонения для моей гипотезы) из-за неудачной битвы между основателями. Фишер и Нейман / Пирсон десятилетиями горько и публично боролись за свои подходы. Это создало впечатление, что здесь дихотомический вопрос: один подход должен быть «правильным», а другой - «неправильным».p

Я полагаю, что гибрид возник из осознания того, что такого простого ответа не существует, и что существуют явления реального мира, для которых один подход подходит лучше, чем другой (см. Этот пост для такого примера, по моему мнению в по крайней мере, где подход Fisherian кажется более подходящим). Но вместо того, чтобы держать два «отдельных и готовых к действиям», они были довольно излишне скреплены вместе.

Я предлагаю источник, который резюмирует этот «дополнительный альтернативный» подход: Spanos, A. (1999). Теория вероятностей и статистический вывод: эконометрическое моделирование с данными наблюдений. Издательство Кембриджского университета. , гл. 14 , особенно раздел 14.5, где после формального и четкого представления двух подходов автор может четко указать на их различия, а также утверждать, что их можно рассматривать как дополнительные альтернативы.

Алекос Пападопулос
источник
6
(+1) Я ценю ваши комментарии и согласен со многими из них. Но я не уверен, что именно вы имеете в виду, когда говорите, что гибрид «породил недоразумения» (и более того, что это «широко признано как факт»). Не могли бы вы привести несколько примеров? Чтобы быть атакой на гибрид, это должны быть примеры недоразумений, которые не возникают ни в F, ни в NP подходах. Вы имеете в виду потенциальную путаницу между и о которой я упоминал в своем вопросе, или что-то еще? Кроме того, я уже читаю Раздел 14.5 в Спаносе, спасибо. αpα
говорит амеба, восстанови Монику
6
Очевидная проблема - действительно проблема . Более тонким и, я считаю, более важным, является тот факт, что гибрид смешивает исследовательский вкус Фишера (который более оставляет вопрос решения для исследователя) с более формальным подходом NP. Таким образом, исследователи подошли к этому вопросу в духе рыболовства, но затем заявили, что «подход отклонения / принятия» является весомым для подхода NP, что в принципе дает больше достоверности выводам. ПРОДОЛЖЕНИЕpα
Алекос Пападопулос
6
ПРОДОЛЖЕНИЕ Для меня это проблема гибридного подхода "съешь свой пирог и съешь его тоже". Например, подход NP без вычислений теста мощности должен быть немыслим, но все время мы видим тестирование в структуре NP, но не упоминаем о вычислениях мощности.
Алекос Пападопулос
Не по теме, но ... Поскольку вы цитируете Ариса Спаноса, мне интересно, сможете ли вы ответить на этот вопрос о его методологии? (Однажды я задал вопрос Арису Спаносу напрямую, и он любезно приложил некоторые усилия, чтобы ответить на него. К сожалению, его ответ был на том же языке, что и его статьи, поэтому он мне мало помог.)
Ричард Харди,
13

Мой собственный взгляд на мой вопрос заключается в том, что нет ничего особенно не связанного с гибридным (то есть принятым) подходом. Но так как я не был уверен, что, может быть, я не смог понять обоснованность аргументов, представленных в антигибридных документах, я был рад найти обсуждение, опубликованное вместе с этой статьей:

К сожалению, два ответа, опубликованные в виде обсуждения, не были отформатированы как отдельные статьи и поэтому не могут быть должным образом процитированы. Тем не менее, я хотел бы процитировать их обоих:

Берк: Тема разделов 2 и 3, кажется, заключается в том, что Фишеру не понравилось то, что сделали Нейман и Пирсон, а Нейману не понравилось то, что сделал Фишер, и поэтому мы не должны делать ничего, что объединяет два подхода. Здесь нет выхода из предпосылки, но аргументация ускользает от меня.

Carlton:авторы категорически настаивают на том, что наибольшая путаница проистекает из брака идей Фишера и Неймана-Пирсона, что такой брак является катастрофической ошибкой со стороны современных статистиков [...] [T] они, похоже, намерены установить, что значения P и Ошибки типа I не могут сосуществовать в одной и той же вселенной. Неясно, указали ли авторы какие-либо существенные причины, по которым мы не можем произнести «значение p» и «ошибка типа I» в одном предложении. [...] «Факт» их несовместимости [F и NP] приходит для меня так же неожиданно, как и для тысяч квалифицированных статистиков, читающих статью. Авторы, похоже, даже предполагают, что среди причин, по которым статистики должны теперь развести эти две идеи, заключается в том, что Фишер и Нейман не очень любили друг друга (или друг друга » философия по тестированию). Я всегда рассматривал нашу текущую практику, которая объединяет философию Фишера и Неймана и позволяет обсуждать как значения P, так и ошибки типа I - хотя, конечно, не параллельно - как один из величайших триумфов нашей дисциплины.

Оба ответа очень стоит прочитать. Существует также реплика первоначальных авторы, которые не звучат убедительно мне вообще .

амеба говорит восстановить монику
источник
1
Это одна вещь, чтобы сосуществовать, это другая для того, чтобы один считался другим. Но на самом деле, это направление антигибридного подхода в духе «не может быть никакого синтеза», с чем я категорически не согласен. Но я не вижу нынешний гибрид как успешный брак.
Алекос Пападопулос
2
@Livid, спасибо за ваши комментарии, это интересно, но я хотел бы воздержаться от дальнейшего обсуждения здесь. Я бы посоветовал вам опубликовать новый ответ, если хотите. Но если вы решите сделать это, постарайтесь сосредоточиться на главной проблеме: что такого плохого в «гибриде», по сравнению как с Фишером, так и с NP. Вы, кажется, ненавидите весь подход проверки значимости, «нулевую нулевую гипотезу» и т. Д., Но это не то, о чем этот вопрос!
говорит амеба, восстанови Монику
1
@Livid: Хммм, вы можете уточнить, почему вы говорите, что это отличительная черта гибрида? Что бы ноль было в чистом Фишере или в чистом NP? Скажем, у вас есть две группы и вы хотите проверить значительную разницу («ноль ноль»). Разве нельзя подходить к этой ситуации со всеми тремя подходами: чистый Фишер, чистый НП и гибрид?
говорит амеба: восстанови монику
2
@Livid, я понимаю твои аргументы против нуля ноль, я просто думаю, что эта проблема ортогональна проблеме гибрида. Я должен освежить антигибридные бумаги в памяти, но, насколько я помню, их критика гибрида вовсе не сосредоточена на ноль-ноль. Вместо этого речь идет об объединении Фишера и NP. Опять же, если вы не согласны с этим, рассмотрите возможность размещения ответа; на данный момент, давайте оставим это на этом.
амеба говорит восстановить Монику
2
Примечание для себя: я должен включить в этот ответ некоторые цитаты из этой статьи: Lehmann 1992, The Fisher, Neyman-Pearson. Теории проверки гипотез: одна теория или две?
амеба говорит восстановить Монику
8

Я боюсь, что для реального ответа на этот превосходный вопрос потребуется полная статья. Однако вот пара моментов, которых нет ни в вопросе, ни в текущих ответах.

  1. Частота ошибок «принадлежит» процедуре, но доказательство «принадлежит» экспериментальным результатам. Таким образом, при многоэтапных процедурах с правилами последовательной остановки возможно получить результат с очень убедительными доказательствами против нулевой гипотезы, но несущественным результатом проверки гипотезы. Это можно считать сильной несовместимостью.

  2. Если вас интересуют несовместимости, вы должны быть заинтересованы в основных принципах. Философская трудность заключается в выборе между соответствием принципу правдоподобия и соблюдением принципа повторного отбора проб. LP говорит, что, учитывая статистическую модель, данные в наборе данных, относящиеся к интересующему параметру, полностью содержатся в соответствующей функции правдоподобия. RSP говорит, что следует отдавать предпочтение тестам, которые в долгосрочной перспективе дают частоты ошибок, равные их номинальным значениям.

Майкл Лью
источник
3
Монография Дж. О. Бергера и Р. Л. Вольперта «Принцип правдоподобия» (2-е изд. 1988 г.), на мой взгляд, является спокойной, сбалансированной и хорошей экспозицией пункта 2.
Алекос Пападопулос
5
Бергер и Вольперт - действительно хорошая экспозиция, и авторитетная тоже. Тем не менее, я предпочитаю более практичную и менее математическую книгу "Вероятность", написанную А.В.Ф. Эдвардсом. Я думаю, все еще в печати. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Майкл Лью
2
@MichaelLew объяснил, что правильное использование значений p является сводкой величины эффекта. Он сделал великую вещь, написав эту статью: arxiv.org/abs/1311.0081
Живое
@Livid Статья очень интересна, но для нового читателя стоит отметить следующее: основная идея, что p-значения 'index' (предположительно: находятся в соотношении один к одному) с функциями правдоподобия, обычно понимают как ложные, потому что Есть случаи, когда одна и та же вероятность соответствует различным значениям p в зависимости от схемы выборки. Этот вопрос немного обсуждается в статье, но индексирование - это очень необычная позиция (что, конечно, не обязательно делает это неправильно).
конъюнктура
8

Часто встречающийся (и предположительно принятый) союз (или лучше: «гибрид») между двумя подходами выглядит следующим образом:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    Если значение р не достаточно мало, вы бы сказали

    • Ho
    • HoH1

Здесь аспекты от Неймана-Пирсона:

  • Вы решаете что-то
  • Ho
  • Вы знаете уровень ошибок типа I

Рыболовные аспекты:

  • Вы заявляете значение р. Таким образом, любой читатель имеет возможность использовать свой собственный уровень (например, строго корректируя для многократного тестирования) для принятия решения
  • По сути, требуется только нулевая гипотеза, поскольку альтернатива как раз наоборот
  • μ0

ДОБАВИТЬ

Хотя полезно знать о дискуссии о философских проблемах подхода Фишера, Н.П. или этого гибридного подхода (как некоторые преподают в почти религиозном безумии), в статистике есть гораздо более актуальные вопросы, с которыми нужно бороться:

  • Задавать неинформативные вопросы (например, бинарные вопросы «да / нет» вместо количественных вопросов «сколько», т.е. с использованием тестов вместо доверительных интервалов)
  • Методы анализа данных, приводящие к смещенным результатам (ступенчатая регрессия, допущения при тестировании и т. Д.)
  • Выбор неправильных тестов или методов
  • Неправильная интерпретация результатов
  • Использование классической статистики для неслучайных выборок
Майкл М
источник
1
(+1) Это хорошее описание гибрида (и почему именно он является гибридом), но вы прямо не сказали, как вы оцениваете его. Согласны ли вы с тем, что то, что вы описали, является «бессвязной мешаниной»? Если так, то почему? Или вы думаете, что это разумная процедура? Если так, люди, утверждающие, что это бессвязно, имеют смысл, или они просто ошибаются?
говорит амеба, восстанови Монику
1
α
4

Признавая, что и F, и NP являются правильными и значимыми подходами, что такого плохого в их гибриде?

Краткий ответ: использование нулевой (без разницы, без корреляции) нулевой гипотезы независимо от контекста. Все остальное - «злоупотребление» людьми, которые создали для себя мифы о том, чего может достичь этот процесс. Мифы возникают из-за того, что люди пытаются согласовать свое (иногда уместное) использование доверия к авторитету и консенсусной эвристики с неприменимостью процедуры к их проблеме.

Насколько я знаю, Герд Гигеренцер придумал термин «гибрид»:

Я спросил автора [выдающегося автора статистического учебника, чья книга прошла через много изданий и чье имя не имеет значения], почему он удалил главу о Байесе, а также невинное предложение из всех последующих изданий. «Что заставило вас представить статистику так, как будто у нее был только один молоток, а не набор инструментов? Почему вы смешали теории Фишера и Неймана-Пирсона в противоречивый гибрид, от которого отказался бы каждый достойный статистик?

К его чести, я должен сказать, что автор не пытался отрицать, что он создал иллюзию, что есть только один инструмент. Но он дал мне знать, кто был виноват в этом. Было три виновных: его коллеги-исследователи, администрация университета и его издатель. Большинство исследователей, утверждал он, на самом деле не заинтересованы в статистическом мышлении, а только в том, как опубликовать свои статьи [...]

Нулевой ритуал:

  1. Установите статистическую нулевую гипотезу «нет средней разницы» или «нулевой корреляции». Не указывайте предсказания вашей исследовательской гипотезы или любых альтернативных субстантивных гипотез.

  2. p<0.05p<0.01p<0.001p

  3. Всегда выполняйте эту процедуру.

Gigerenzer, G (ноябрь 2004 г.) « Бессмысленная статистика ». Журнал социально-экономических 33 (5): 587–606. DOI: 10.1016 / j.socec.2004.09.033.

Редактировать: И мы всегда должны упоминать, потому что «гибрид» настолько скользкий и плохо определенный, что использование нулевого нуля для получения p-значения прекрасно подходит для сравнения размеров эффекта при разных размерах выборки. Это «тестовый» аспект, который представляет проблему.

Изменить 2: @amoeba Значение p может быть хорошим в качестве сводной статистики, в этом случае нулевая нулевая гипотеза является просто произвольным ориентиром: http://arxiv.org/abs/1311.0081 . Однако, как только вы начинаете пытаться сделать вывод или принять решение (то есть «проверить» нулевую гипотезу), он перестает иметь смысл. В примере сравнения двух групп мы хотим знать, насколько разные две группы и какие могут быть возможные объяснения различий этой величины и типа.

Значение p можно использовать в качестве сводной статистики, сообщающей нам величину разности. Однако использование его для «опровержения / отклонения» нулевой разницы не имеет смысла, о чем я могу сказать. Кроме того, я думаю, что многие из этих планов исследований, которые сравнивают средние измерения живых существ в один момент времени, ошибочны. Мы должны хотеть наблюдать, как отдельные экземпляры системы изменяются со временем, а затем придумать процесс, который объясняет наблюдаемый паттерн (включая любые групповые различия).

синевато-багровый
источник
2
+1, спасибо за ваш ответ и за ссылку. Кажется, я не читал эту статью, я посмотрю. Как я уже говорил, у меня сложилось впечатление, что «ноль ноль» - это проблема, ортогональная проблеме «гибрида», но я думаю, что мне следует перечитать труды Гигерензера, чтобы это проверить. Постараюсь найти время в следующие дни. Кроме того: не могли бы вы уточнить ваш последний абзац («изменить»)? Правильно ли я понял, что вы имели в виду, что иметь нулевое нулевое значение при сравнении двух размеров эффекта - это нормально, но иметь нулевое нулевое значение при сравнении размера эффекта с нулем - это плохо?
говорит амеба, восстанови Монику
1

Я вижу, что те, кто обладает большим опытом, чем я, предоставили ответы, но я думаю, что мой ответ может добавить что-то дополнительное, поэтому я предложу это как точку зрения еще одного непрофессионала.

Является ли гибридный подход непоследовательным?   Я бы сказал, что это зависит от того, будет или нет исследователь действовать в соответствии с правилами, с которыми они начали: в частности, с правилом да / нет, которое вступает в игру с установкой альфа-значения.

бессвязный

Начните с Неймана-Пирсона. Исследователь устанавливает альфа = 0,05, запускает эксперимент, вычисляет р = 0,052. Исследователь смотрит на это p-значение и, используя вывод Фишера (часто неявно), считает, что результат достаточно несовместим с тестовой гипотезой о том, что они все еще будут утверждать, что «что-то» происходит. Результат как-то «достаточно хорош», хотя значение р было больше, чем значение альфа. Часто это сочетается с такими формулировками, как «почти значимый» или «стремление к значению», или с некоторыми формулировками в том же духе.

Однако установка альфа-значения перед началом эксперимента означает, что был выбран подход индуктивного поведения Неймана-Пирсона. Выбор игнорировать это альфа-значение после вычисления p-значения и, следовательно, утверждение чего-либо все еще является каким-то интересным, подрывает весь подход, с которого начинали. Если исследователь начинает движение по Пути А (Нейман-Пирсон), но затем перепрыгивает на другой путь (Фишер), когда ему не нравится путь, по которому он идет, я считаю это несогласованным. Они не соответствуют (подразумеваемым) правилам, с которых они начали.

Связное (возможно)

Начните с NP. Исследователь устанавливает альфа = 0,05, запускает эксперимент, вычисляет р = 0,0014. Исследователь отмечает, что р <альфа, и, таким образом, отвергает тестовую гипотезу (обычно без эффекта ноль) и принимает альтернативную гипотезу (эффект реален). На этом этапе исследователь, в дополнение к решению рассматривать результат как реальный эффект (NP), решает сделать вывод (Фишер), что эксперимент предоставляет очень убедительные доказательства того, что эффект является реальным. Они добавили нюанс в подход, с которого начали, но не противоречили установленным правилам, выбрав альфа-значение в начале.

Резюме

Если вы начинаете с выбора альфа-значения, тогда вы решили пойти по пути Неймана-Пирсона и следовать правилам этого подхода. Если они в какой-то момент нарушают эти правила, используя в качестве оправдания заключение Фишера, то они действуют непоследовательно / непоследовательно.

Я полагаю, что можно пойти дальше и заявить, что, поскольку возможно использование гибрида некогерентно, следовательно, этот подход по своей сути непоследователен, но, похоже, он углубляется в философские аспекты, которые я не считаю способными даже предложить мнение о.

Шляпная шапка Майклу Лью. Его статья 2006 года помогла мне понять эти проблемы лучше, чем любой другой ресурс.

MichiganWater
источник