Когда имеет смысл подход Фишера «иди и получи больше данных»?

26

Предположительно, исследователь однажды обратился к Фишеру с «незначительными» результатами, спросив его, что он должен делать, и Фишер сказал: «Иди и получи больше данных».

С точки зрения Неймана-Пирсона, это явное хакерство, но есть ли смысл в подходе Фишера, чтобы получить больше данных? $p$

hypothesis-testing p-value intuition philosophical nalzok
источник

10

Фишер (неоднократно) подчеркивал важность воспроизведения экспериментов, и я ожидаю, что это было его намерением здесь (при условии, что разговор состоялся). Конечно, Фишер хорошо бы знал, что вы не можете проверить значимость, а затем расширить свой первоначальный образец, если вы его не получили.

Glen_b

@Glen_b Я слышал фразу «репликация экспериментов» раньше, но не совсем понял. Можете ли вы уточнить? Скажем, десять повторений эксперимента с размером выборки в 10 лучше, чем один эксперимент с размером выборки 100?

Нальзок

В предварительном исследовании, данные о том, как получить, могут быть приемлемы. В подтверждающих исследованиях нет места для получения дополнительных данных.

user158565

5

Одно из моих противоречивых взглядов на статистическую практику состоит в том, что, хотя важно рассмотреть вопрос о ложноположительных результатах, мы не должны ставить сохранение ошибок типа 1 на такой высокий пьедестал, что мы отказываемся изучать данные, чтобы сохранить тип 1 коэффициент ошибок.

Клифф AB

29

Частотная парадигма - это сочетание взглядов Фишера и Неймана-Пирсона. Только при использовании одного подхода и другой интерпретации возникают проблемы.

Всем должно показаться странным, что сбор большего количества данных проблематичен, так как больше данных - больше доказательств. Действительно, проблема заключается не в сборе большего количества данных, а в использовании $p$ значения для принятия решения об этом, когда это также является мерой интереса. Сбор большего количества данных, основанных на $p$ значении, является только $p$ hacking, если вы вычисляете новое $p$ значение.

Если у вас недостаточно доказательств, чтобы сделать удовлетворительное заключение по исследовательскому вопросу, тогда непременно получите больше данных. Тем не менее, признайте, что вы прошли стадию исследования NHST, и вместо этого сфокусируйтесь на количественной оценке эффекта интереса.

Интересно отметить, что байесовцы не страдают от этой дилеммы. Рассмотрим следующее в качестве примера:

Если специалист по частым исследованиям не приходит к выводу о существенной разнице, а затем переключается на тест на эквивалентность, несомненно, уровень ложноположительных результатов увеличился;
Байесовский может выразить самый высокий интервал плотности и область практической эквивалентности разности одновременно и спать точно так же ночью.

Франс Роденбург
источник

В общем, скажем, я хочу проверить, равно ли среднее значение популяции A среднему для популяции B. Сначала я получаю некоторые данные, провожу тест на

: «средства равны», и я не могу их отклонить. В этом случае мне не следует проводить еще одну проверку на

: «средства НЕ равны». Все, что я могу сделать, это оценить конфиденциальные интервалы средств, это правильно? Что если нет перекрытия между двумя интервалами?

H_{0}

$H_0$

H_{0}

$H_0$

Нальзок

6

«Это только p-хакерство, если вы вычисляете новое p-значение». Разве это не зависит полностью от метода, используемого для вычисления p-значения? Игнорирование последовательного анализа и решение собрать больше данных приведут к неточному p-значению. Однако если вы включите правило принятия решения для сбора дополнительных данных в расчет значения p, то вы получите действительное значение p.

Jsk

4

@jsk Я думаю, меньше того, что впоследствии вычисленные p-значения в некотором роде являются недействительными, и больше того, что вы используете произвольный и не основанный на данных стандарт, чтобы судить, когда ваш эксперимент «правильный», а ваше исследование этого проекта - « сделанный". Решив , что все незначимые значения р неправильны, и сбор данных , пока вы не получите тот , который является значительным , а затем остановить , потому что вы получили «правильный» результат противоположен экспериментальной науки.

Upper_Case-Stop Harm Моника

1

@Upper_Case Я комментировал очень маленький раздел поста в отношении p-хакерства, поэтому я включил этот раздел в кавычки. Вы слишком много читаете в моем заявлении. Моя точка зрения заключается в том, что ЛЮБОЕ правило принятия решения, которое используется для принятия решения о сборе дополнительных данных, должно быть включено в расчет значения p. Пока вы включаете решения, принятые в расчет p-значения, вы все равно можете провести действительный NHST, если вы того пожелаете. Это ни в коем случае не означает, что я выступаю за правило остановки, которое гласит: «собирайте больше данных, пока не найдете значительный результат».

Jsk

@jsk Ах, теперь я понимаю вашу точку зрения. Спасибо тебе за пояснение.

Upper_Case-Stop Harm Моника

10

При достаточно большом размере выборки тест всегда будет показывать значительные результаты, если только истинный размер эффекта не равен нулю, как обсуждалось здесь . На практике истинный размер эффекта не равен нулю, поэтому сбор большего количества данных в конечном итоге позволит обнаружить самые незначительные различия.

Шутливый ответ (IMO) от Фишера был ответом на относительно тривиальный вопрос, который предполагает, что «существенная разница» связана с «практически существенной разницей».

Это было бы эквивалентно тому, чтобы исследователь приходил ко мне в кабинет и спрашивал: «Я взвесил этот вес свинца, помеченный как« 25 грамм », и он измерял 25,0 грамм. Я считаю, что это неправильно маркировано, что мне делать?» На что я мог ответить: «Получить более точную шкалу».

Я полагаю, что подход «получи больше данных» уместен, если первоначальный тест крайне удручает, чтобы обнаружить величину различий, которая практически актуальна.

Underminer
источник

Суть в том, что вам нужно включить решение, чтобы получить больше данных в расчет p-значения.

Jsk

@jsk, даже если вы измените значение p, вы все равно сможете собрать больше данных, чтобы найти значимый результат (хотя вам потребуется еще больше данных).

Подрыватель

1

Я мог бы быть яснее. Я не уверен, что именно вы подразумеваете под «вы МОЖЕТЕ собрать больше данных, чтобы найти значимый результат». Я понимаю, что поскольку нулевая гипотеза, как правило, никогда не бывает верной, сбор большего количества данных в конечном итоге приведет к значительному результату. Я просто хотел привлечь внимание к тому факту, что при расчете p-значения необходимо учитывать решение о сборе дополнительных данных при расчете p-значения. Это означает, что правила принятия решения (о сборе дополнительных данных) должны быть предварительно определены до начала сбора исходных данных.

Jsk

@jsk даже при очень консервативном методе корректировки значения p (например, корректный коэффициент Бонферрони, применимый в пост-специальном анализе), существует дополнительный размер выборки, достаточно большой, чтобы преодолеть коррекцию. Дело в том, что: если вы предоставите мне метод корректировки p-значения (указанный до сбора исходных данных или нет), истинная разница между распределениями населения в группах, представляющих интерес, и незначительные предварительные результаты; и я могу предоставить вам достаточно большой размер выборки, который даст вам значительные результаты. Следовательно, больше данных ВСЕГДА ответ.

Подрыватель

7

Спасибо. Здесь следует иметь в виду несколько вещей:

Цитата может быть апокрифической.
Вполне разумно получить дополнительные / более качественные данные или данные из другого источника (более точный масштаб, ср., Ответ @ Underminer ; другая ситуация или элементы управления и т. Д.) Для второго исследования (ср., Комментарий @ Glen_b ) , То есть вы не будете анализировать дополнительные данные в сочетании с исходными данными: скажем, у вас N = 10 с незначительным результатом, вы можете собрать еще N = 20 данных и проанализировать их в одиночку (не тестируя полные 30 вместе). ). Если цитата не апокрифическая, Фишер мог подумать об этом.
Философия науки Фишера была по сути попперской . То есть, нулевое значение не обязательно было чем-то, чтобы отбросить поверхностно, чтобы подтвердить вашу теорию, но в идеале это могла бы быть сама ваша теория, такая, что отклонение означает, что ваша теория о питомце неверна, и вам нужно вернуться к чертежной доске. В таком случае инфляция ошибок типа I не принесет пользы исследователю. (С другой стороны, это толкование противоречит тому, что Фишер дает этот совет, если только он не был ссорящимся, что не имело бы никакого характера).
В любом случае, стоит отметить, что причина, по которой я включил этот комментарий, заключается в том, что он иллюстрирует нечто фундаментальное в отношении различия в природе двух подходов.

Gung - Восстановить Монику
источник

1

p

$p$

Кстати, было бы здорово, если бы вы могли уточнить «разницу в характере двух подходов». Метод Фишера звучит более ... субъективно, так как я чувствую, что ему на самом деле наплевать на частоту ошибок, но я мог что-то упустить.

Нальзок

1

@nalzok, разница обсуждается в оригинальной ветке: подход Неймана-Пирсона предполагает, что исследование является дискретным событием, вы делаете это и уходите; Подход Фишера предполагает, что проблема находится в стадии расследования. Re: # 2, если вы анализируете данные изолированно, это не p-хакерство (если, возможно, вы не проводите несколько исследований и публикуете только то, что показало, что вы хотите). Re: # 3, нет, ноль не принимается, вам нужно продолжать искать лучшие способы проверить свою теорию.

gung - Восстановить Монику

1

p

$p$

p

$p$

1

(+1) Иногда я думаю, что мы сосредотачиваемся на дереве и скучаем по лесу. Откровенно говоря, когда мы сталкиваемся с серьезной проблемой, больше данных обычно лучше, чем меньше данных. В большинстве случаев больше данных не намного лучше. Как подсказывает проницательная статья Менга за 2018 год « Статистические районы и парадоксы в больших данных (I) », получение более качественных данных (например, правильно подобранной выборки) гораздо выгоднее, чем больших данных, когда мы пытаемся оценить неизвестное количество. Но больше данных обычно помогает!

usεr11852 говорит восстановить Monic

6

То, что мы называем P-хакерством, - это применение теста значимости несколько раз и только сообщение о значимости результатов. Хорошо это или плохо, зависит от ситуации.

Чтобы объяснить, давайте подумаем об истинных эффектах в байесовских терминах, а не о нулевых и альтернативных гипотезах. До тех пор, пока мы считаем, что интересующие нас эффекты происходят от непрерывного распределения, мы знаем, что нулевая гипотеза неверна. Однако в случае двустороннего теста мы не знаем, является ли он положительным или отрицательным. В этом свете мы можем рассматривать p-значения для двухсторонних тестов как меру того, насколько убедительными являются доказательства того, что наша оценка имеет правильное направление (т. Е. Положительный или отрицательный эффект).

$p < \alpha$

Теперь рассмотрим, что происходит, когда вы продолжаете возвращаться, чтобы получить больше данных. Каждый раз, когда вы получаете больше данных, ваша вероятность получения правильного направления при условии наличия достаточных данных только возрастает. Таким образом, в этом сценарии мы должны понимать, что, получая больше данных, хотя мы на самом деле увеличиваем вероятность ошибки типа I, мы также уменьшаем вероятность ошибочного вывода неверного направления.

Возьмите это в отличие от более типичного злоупотребления P-хакингом; мы тестируем сотни значений эффекта, которые имеют хорошую вероятность быть очень маленькими, и сообщаем только о значительных. Обратите внимание, что в этом случае, если все эффекты невелики, у нас есть почти 50% шанс ошибиться в направлении, когда мы объявляем значение.

Конечно, полученные значения p из этого двойного значения данных должны все еще идти с частичкой соли. Хотя в общем случае у вас не должно быть проблем с людьми, собирающими больше данных, чтобы быть более уверенными в размере эффекта, этим можно злоупотреблять другими способами. Например, умный ИП может понять, что вместо сбора всех 100 точек данных за один раз, он может сэкономить кучу денег и увеличить мощность, сначала собрав 50 точек данных, проанализировав данные, а затем собрав следующие 50, если это несущественно , В этом сценарии они увеличивают вероятность ошибочного направления направления эффекта при объявлении значимости, поскольку они с большей вероятностью ошибочно определяют направление эффекта при 50 точках данных, чем при 100 точках данных.

И наконец, подумайте о том, как не получить больше данных, когда у нас будет незначительный результат. Это означало бы, что мы никогда не собираем больше информации по этой теме, что на самом деле не продвинет науку вперед, не так ли? Одно слабое исследование убило бы целое поле.

Клифф AB
источник

1

(+1) Это интересная точка зрения, но не могли бы вы рассказать о разнице между методологией Фишера и методологией умного ПИ? Оба собирают больше данных, потому что первоначальный тест незначителен, кажется.

Нальзок

Кроме того, я не уверен, что вы подразумеваете под «хотя мы на самом деле увеличиваем вероятность ошибки типа I, мы также уменьшаем вероятность ошибочного заключения неправильного направления». Какая здесь нулевая гипотеза? IMO, если вы проводите односторонний тест, то «заключение неверного направления» является «ошибкой типа I», а для двусторонних тестов вы не должны делать вывод о направлении.

Нальзок

Поправьте меня, если я ошибаюсь, но я думаю, что вы предлагаете продолжать собирать больше данных, пока двусторонний тест не будет значительным, и в этом случае частота ошибок типа I будет равна 100%.

Нальзок

1

Основное различие между тем, что рекомендует Фишер, и умным / наивным ПИ в том, что Фишер делает этот вызов из завершающегося исследования. Его варианты: либо собрать больше данных, либо решить, что он никогда не узнает направление эффекта. С другой стороны, ИП решает ослабить свое первоначальное исследование еще до того, как увидит данные.

Клифф AB

1

@nalzok: конечно, я попытаюсь взглянуть в нерабочее время :)

Клифф А.Б.

1

Если альтернатива имела небольшую априорную вероятность, то эксперимент, который не сможет отклонить нулевое значение, еще больше уменьшит его, что сделает дальнейшее исследование еще менее экономически эффективным. Например, предположим, что априорная вероятность равна 0,01. Тогда ваша энтропия составляет 0,08 бит. Если вероятность уменьшается до 0,001, то ваша энтропия теперь равна 0,01. Таким образом, продолжение сбора данных часто неэффективно с точки зрения затрат. Одна из причин, по которой это будет экономически эффективным, заключается в том, что знание настолько важно, что даже оставшиеся 0,01 бит энтропии стоит уменьшить.

Другая причина была бы, если бы априорная вероятность была действительно высокой. Если ваша априорная вероятность была более 50%, то отказ от нулевого значения увеличивает вашу энтропию, делая более рентабельным продолжение сбора данных. Примером может служить ситуация, когда вы почти уверены, что эффект есть, но не знаете, в каком направлении.

Например, если вы агент контрразведки и уверены, что в департаменте есть моль, и сузили его до двух подозреваемых, и проводите некоторый статистический анализ, чтобы решить, какой из них, то статистически незначимый результат оправдал бы сбор данных. больше данных.

Acccumulation
источник

Почему неспособность отклонить нуль уменьшает его вероятность? Хотя отсутствие доказательств не является доказательством отсутствия, я не могу понять, почему это доказательство против отсутствия.

Нальзок

@nalzok Я написал: «Если альтернатива имела небольшую априорную вероятность, то эксперимент, который не может отклонить нулевое значение, еще больше уменьшит его». В то время как «нулевое» является ближайшим существительным к «этому», нулевое не является величиной, и следовательно, не может быть уменьшено и не является действительным предшественником "it". Кроме того, «далее» означает, что «оно» относится к чему-то уже малому. Эти факты указывают на то, что «это» является «малой априорной вероятностью» альтернативы.

накопление

Когда имеет смысл подход Фишера «иди и получи больше данных»?

Ответы: