Один статистический тест может подтвердить, что нулевая гипотеза (H0) ложна, и, следовательно, альтернативная гипотеза (H1) верна. Но это не может использоваться, чтобы показать, что H0 истинно, потому что отказ отклонить H0 не означает, что H0 истинно.
Но давайте предположим, что у вас есть возможность выполнять статистический тест много раз, потому что у вас много наборов данных, все они независимы друг от друга. Все наборы данных являются результатом одного и того же процесса, и вы хотите сделать какое-то утверждение (H0 / H1) над самим процессом, и вас не интересуют результаты каждого отдельного теста. Затем вы собираете все полученные значения p и по графику гистограммы видите, что значения p четко распределены равномерно.
Теперь я рассуждаю так: это может произойти, только если H0 истинно, иначе p-значения будут распределены по-другому. Следовательно, достаточно ли этого доказательства, чтобы сделать вывод, что H0 истинно? Или я упускаю здесь что-то важное, потому что мне потребовалось много силы воли, чтобы написать «сделать вывод, что H0 - правда», что звучит ужасно неправильно в моей голове.
источник
Ответы:
Мне нравится ваш вопрос, но, к сожалению, мой ответ НЕТ, он не доказывает . Причина очень проста. Откуда вы знаете, что распределение значений p является равномерным? Возможно, вам придется запустить тест на однородность, который вернет вам собственное значение p, и вы получите тот же самый вопрос логического вывода, которого пытались избежать, всего лишь на один шаг дальше. Вместо того, чтобы смотреть на p-значение исходного , теперь вы смотрите на p-значение другого относительно равномерности распределения исходных p-значений.ЧАС0 ЧАС0 H′0
ОБНОВИТЬ
Вот демонстрация. Я генерирую 100 выборок из 100 наблюдений из распределения Гаусса и Пуассона, затем получаю 100 p-значений для проверки нормальности каждой выборки. Итак, предпосылка вопроса заключается в том, что, если p-значения получены из равномерного распределения, то это доказывает, что нулевая гипотеза верна, что является более сильным утверждением, чем обычное «не отвергается» в статистическом выводе. Беда в том, что «p-значения из единообразных» - это сама гипотеза, которую вы должны как-то проверить.
На рисунке (первая строка) ниже я показываю гистограммы p-значений из теста нормальности для образца Гуасса и Пуассона, и вы можете видеть, что трудно сказать, является ли одно более однородным, чем другое. Это была моя главная мысль.
Во втором ряду показан один из образцов из каждого распределения. Образцы относительно небольшие, поэтому вы не можете иметь слишком много бункеров. На самом деле, этот конкретный гауссовский образец вообще не выглядит так много гауссовски на гистограмме.
В третьей строке я показываю объединенные выборки из 10 000 наблюдений для каждого распределения на гистограмме. Здесь вы можете иметь больше корзин, и формы более очевидны.
Наконец, я запускаю тот же тест нормальности и получаю p-значения для комбинированных выборок, и он отклоняет нормальность для Пуассона, но не отклоняет для Гаусса. Значения p: [0.45348631] [0.]
Это, конечно, не доказательство, а демонстрация идеи о том, что лучше проводить один и тот же тест на комбинированном образце, а не пытаться анализировать распределение значений р из подвыборок.
Вот код Python:
источник
Ваш ряд экспериментов можно рассматривать как один эксперимент с гораздо большим количеством данных, и, как мы знаем, больше данных выгодно (например, обычно стандартные ошибки уменьшаются при увеличении для независимых данных). Но вы спрашиваете: «Это ... достаточно доказательств, чтобы сделать вывод, что H0 - правда?n−−√
Нет. Основная проблема заключается в том, что другая теория может создавать аналогичные шаблоны в данных! Как @ Björn обсуждает в своем ответе, вы не сможете отклонить ложное значение если в вашем эксперименте не хватает силы, чтобы отличить от других возможностей. На протяжении веков нам не удавалось отвергать теорию гравитации Ньютона, потому что никто не проводил тесты, в которых теория Ньютона дает достаточно разные предсказания, чем теория общей теории относительности Эйнштейна. Менее экстремальные примеры являются обычным явлением.H0 H0
Дэвид Хьюм и проблема индукции
Возможно перефразировка : «Если я получаю все больше и больше данных , совместимые с быть верным, я могу сделать вывод , что когда - либо это правда?»H0 H0
Этот вопрос тесно связан с проблемой индукции философа 18-го века Дэвида Хьюма . Если все наблюдаемые экземпляры A были B , можем ли мы сказать, что следующим экземпляром A будет B? Юм сказал, что нет, что мы не можем логически вывести, что «все А есть В», даже из объемных данных. В более современной математике конечный набор наблюдений не может логически повлечь за собой если A не является конечным множеством. Два примечательных примера, обсуждаемых Маги и Пассермором :∀a∈A[a∈B]
На протяжении веков каждый лебедь, которого наблюдали европейцы, был белым. Тогда европейцы открыли Австралию и увидели черных лебедей.
На протяжении веков закон тяготения Ньютона соглашался с наблюдением и считался правильным. Он был перевернут, хотя теория общей относительности Эйнштейна.
Если вывод Хьюма верен, доказательство истинно недостижимо. То, что мы не можем делать заявления с уверенностью, не равнозначно тому, что мы вообще ничего не знаем. Экспериментальная наука и статистика успешно помогли нам понять и ориентироваться в мире.H0
(Неполный) список путей продвижения вперед:
Карл Поппер и фальсификация
По мнению Карла Поппера , ни один научный закон никогда не будет доказан. У нас есть только научные законы, еще не доказанные ложными.
Поппер утверждал, что наука продвигается вперед, угадывая гипотезы и подвергая их тщательному анализу. Он продвигается вперед посредством дедукции (наблюдения, доказывающие ложность теорий), а не индукции (повторные наблюдения, подтверждающие верность теорий) Большая часть статистики часто строилась в соответствии с этой философией.
Точка зрения Поппера была чрезвычайно влиятельной, но, как утверждали Кун и другие, она не совсем соответствует эмпирически наблюдаемой практике успешной науки.
Байесовская, субъективная вероятность
Давайте предположим, что нас интересует параметр .θ
Для статистика, частыми исследованиями, параметр - это скалярное значение, число. Если вместо этого вы используете субъективную байесовскую точку зрения (например, в Фонде статистики Леонарда Джимми Сэвиджа ), вы можете смоделировать свою собственную неопределенность в отношении используя инструменты вероятности. Для субъективного байесовского, является случайной величиной, и у вас есть некоторый предварительный . Вы можете говорить о субъективной вероятности различных значений с учетом данных . То, как вы ведете себя в различных ситуациях, имеет некоторое отношение к этим субъективным вероятностям.θ θ θ P ( θ ) P ( θ ∣ X ) θ Xθ θ P(θ) P(θ∣X) θ X
Это логичный способ моделирования ваших собственных субъективных убеждений, но это не волшебный способ получения вероятностей, которые являются истинными с точки зрения соответствия действительности. Сложный вопрос для любой байесовской интерпретации: откуда берутся приоры? Кроме того, что, если модель не указана?
Джордж П. Бокс
Известный афоризм Джорджа EP Box заключается в том, что «все модели ложные, но некоторые полезны».
Закон Ньютона, возможно, не верен, но он все еще полезен для многих проблем. Мнение Бокса очень важно в современном контексте больших данных, когда исследования настолько сильны, что вы можете отклонить практически любое осмысленное предложение. Строго говоря, а не ложь - это плохой вопрос: важно то, помогает ли модель понять данные.
Дополнительные комментарии
Существует большая разница в статистике между оценкой параметра с небольшой стандартной ошибкой и большой стандартной ошибкой! Не уходите, думая, что, поскольку уверенность невозможна, тщательное изучение не имеет значения.θ≈0
Возможно также интерес, статистический анализ результатов многочисленных исследований называется метаанализом .
Насколько далеко вы можете выйти за рамки узких статистических интерпретаций - сложный вопрос.
источник
В некотором смысле вы правы (см. Р-кривую) с некоторыми небольшими оговорками:
С реалистичными приложениями вы, как правило, получаете дополнительные проблемы. Они в основном возникают, потому что ни один человек / лаборатория / учебная группа обычно не может провести все необходимые исследования. В результате мы склонны рассматривать исследования многих групп, и в этот момент у вас усиливаются опасения (т. Е. Если вы сами выполнили все соответствующие эксперименты, по крайней мере, знаете) о занижении отчетности, выборочной отчетности о значительных / неожиданных результатах, p-хакерство, многократное тестирование / множественные исправления и так далее.
источник
Нулевая гипотеза (H0): гравитация заставляет все во вселенной падать к поверхности Земли.
Альтернативная гипотеза (H1): Ничто не падает.
источник
Gravity causes everything in the universe to fall toward Earth's surface
не является альтернативной гипотезойThere is at least one thing in the universe that does not fall toward the Earth's surface
и нетNothing ever falls
?