Цитирование большого ответа Гун в
Предположительно, исследователь однажды обратился к Фишеру с «незначительными» результатами, спросив его, что он должен делать, и Фишер сказал: «Иди и получи больше данных».
С точки зрения Неймана-Пирсона, это явное хакерство, но есть ли смысл в подходе Фишера, чтобы получить больше данных?
Ответы:
Частотная парадигма - это сочетание взглядов Фишера и Неймана-Пирсона. Только при использовании одного подхода и другой интерпретации возникают проблемы.
Всем должно показаться странным, что сбор большего количества данных проблематичен, так как больше данных - больше доказательств. Действительно, проблема заключается не в сборе большего количества данных, а в использованииp значения для принятия решения об этом, когда это также является мерой интереса. Сбор большего количества данных, основанных на p значении, является только p hacking, если вы вычисляете новое p значение.
Если у вас недостаточно доказательств, чтобы сделать удовлетворительное заключение по исследовательскому вопросу, тогда непременно получите больше данных. Тем не менее, признайте, что вы прошли стадию исследования NHST, и вместо этого сфокусируйтесь на количественной оценке эффекта интереса.
Интересно отметить, что байесовцы не страдают от этой дилеммы. Рассмотрим следующее в качестве примера:
источник
При достаточно большом размере выборки тест всегда будет показывать значительные результаты, если только истинный размер эффекта не равен нулю, как обсуждалось здесь . На практике истинный размер эффекта не равен нулю, поэтому сбор большего количества данных в конечном итоге позволит обнаружить самые незначительные различия.
Шутливый ответ (IMO) от Фишера был ответом на относительно тривиальный вопрос, который предполагает, что «существенная разница» связана с «практически существенной разницей».
Это было бы эквивалентно тому, чтобы исследователь приходил ко мне в кабинет и спрашивал: «Я взвесил этот вес свинца, помеченный как« 25 грамм », и он измерял 25,0 грамм. Я считаю, что это неправильно маркировано, что мне делать?» На что я мог ответить: «Получить более точную шкалу».
Я полагаю, что подход «получи больше данных» уместен, если первоначальный тест крайне удручает, чтобы обнаружить величину различий, которая практически актуальна.
источник
Спасибо. Здесь следует иметь в виду несколько вещей:
источник
То, что мы называем P-хакерством, - это применение теста значимости несколько раз и только сообщение о значимости результатов. Хорошо это или плохо, зависит от ситуации.
Чтобы объяснить, давайте подумаем об истинных эффектах в байесовских терминах, а не о нулевых и альтернативных гипотезах. До тех пор, пока мы считаем, что интересующие нас эффекты происходят от непрерывного распределения, мы знаем, что нулевая гипотеза неверна. Однако в случае двустороннего теста мы не знаем, является ли он положительным или отрицательным. В этом свете мы можем рассматривать p-значения для двухсторонних тестов как меру того, насколько убедительными являются доказательства того, что наша оценка имеет правильное направление (т. Е. Положительный или отрицательный эффект).
Теперь рассмотрим, что происходит, когда вы продолжаете возвращаться, чтобы получить больше данных. Каждый раз, когда вы получаете больше данных, ваша вероятность получения правильного направления при условии наличия достаточных данных только возрастает. Таким образом, в этом сценарии мы должны понимать, что, получая больше данных, хотя мы на самом деле увеличиваем вероятность ошибки типа I, мы также уменьшаем вероятность ошибочного вывода неверного направления.
Возьмите это в отличие от более типичного злоупотребления P-хакингом; мы тестируем сотни значений эффекта, которые имеют хорошую вероятность быть очень маленькими, и сообщаем только о значительных. Обратите внимание, что в этом случае, если все эффекты невелики, у нас есть почти 50% шанс ошибиться в направлении, когда мы объявляем значение.
Конечно, полученные значения p из этого двойного значения данных должны все еще идти с частичкой соли. Хотя в общем случае у вас не должно быть проблем с людьми, собирающими больше данных, чтобы быть более уверенными в размере эффекта, этим можно злоупотреблять другими способами. Например, умный ИП может понять, что вместо сбора всех 100 точек данных за один раз, он может сэкономить кучу денег и увеличить мощность, сначала собрав 50 точек данных, проанализировав данные, а затем собрав следующие 50, если это несущественно , В этом сценарии они увеличивают вероятность ошибочного направления направления эффекта при объявлении значимости, поскольку они с большей вероятностью ошибочно определяют направление эффекта при 50 точках данных, чем при 100 точках данных.
И наконец, подумайте о том, как не получить больше данных, когда у нас будет незначительный результат. Это означало бы, что мы никогда не собираем больше информации по этой теме, что на самом деле не продвинет науку вперед, не так ли? Одно слабое исследование убило бы целое поле.
источник
Если альтернатива имела небольшую априорную вероятность, то эксперимент, который не сможет отклонить нулевое значение, еще больше уменьшит его, что сделает дальнейшее исследование еще менее экономически эффективным. Например, предположим, что априорная вероятность равна 0,01. Тогда ваша энтропия составляет 0,08 бит. Если вероятность уменьшается до 0,001, то ваша энтропия теперь равна 0,01. Таким образом, продолжение сбора данных часто неэффективно с точки зрения затрат. Одна из причин, по которой это будет экономически эффективным, заключается в том, что знание настолько важно, что даже оставшиеся 0,01 бит энтропии стоит уменьшить.
Другая причина была бы, если бы априорная вероятность была действительно высокой. Если ваша априорная вероятность была более 50%, то отказ от нулевого значения увеличивает вашу энтропию, делая более рентабельным продолжение сбора данных. Примером может служить ситуация, когда вы почти уверены, что эффект есть, но не знаете, в каком направлении.
Например, если вы агент контрразведки и уверены, что в департаменте есть моль, и сузили его до двух подозреваемых, и проводите некоторый статистический анализ, чтобы решить, какой из них, то статистически незначимый результат оправдал бы сбор данных. больше данных.
источник