Итак, я думаю, что у меня есть приличное понимание основ вероятностного и статистического анализа (и как плохо его можно использовать). В частом мире имеет смысл задать такой вопрос, как «отличается ли это распределение от этого распределения», поскольку предполагается, что распределения являются реальными, объективными и неизменными (по крайней мере, для данной ситуации), и поэтому мы можем вычислить насколько вероятно, что один образец взят из распределения, имеющего форму другого образца.
В байесовском мировоззрении нас интересует только то, что мы ожидаем увидеть, учитывая наш прошлый опыт (я все еще немного расплывчат в этой части, но я понимаю концепцию байесовского обновления). Если это так, как байесовец может сказать, что «этот набор данных отличается от этого набора данных»?
Для целей этого вопроса меня не волнует статистическая значимость или подобное, только то, как количественно определить разницу. Меня одинаково интересуют параметрические и непараметрические распределения.
источник
Ответы:
Продумайте свое заявление как Frequentist и сделайте его более конкретным в первую очередь. Частый участник не может сказать, что «набор данных A отличается от набора данных B», без каких-либо дополнительных пояснений.
Во-первых, вы должны заявить, что вы подразумеваете под «другим». Возможно, вы имеете в виду «имеют разные средние значения». Опять же, вы могли бы иметь в виду «иметь разные отклонения». Или, может быть, что-то еще?
Затем вам нужно будет указать, какой тип теста вы будете использовать, что зависит от того, что вы считаете верными предположениями относительно данных. Предполагаете ли вы, что наборы данных нормально распределены по некоторым средствам? Или вы верите, что они оба бета-распространены? Или что-то другое?
Теперь вы видите, что второе решение во многом похоже на априорные показатели в байесовской статистике? Это не просто «мой прошлый опыт», а скорее то, во что я верю, и то, во что я верю моим сверстникам, - это разумные предположения о моих данных. (А байесовцы могут использовать единообразные приоры, что подталкивает к расчетам Frequentist.)
РЕДАКТИРОВАТЬ: В ответ на ваш комментарий: следующий шаг содержится в первом решении, которое я упомянул. Если вы хотите решить, являются ли средства двух групп различными, вы должны посмотреть на распределение разности средних двух групп, чтобы увидеть, содержит ли это распределение ноль или нет, на некотором уровне достоверности. То, насколько близко к нулю вы считаете ноль, и какая именно часть (апостериорного) распределения вы используете, определяется вами и желаемым уровнем доверия.
Обсуждение этих идей можно найти в статье Крушке , который также написал очень читабельную книгу « Анализ байесовских данных» , которая охватывает пример на страницах 307–309 «Равны ли разные группы?». (Второе издание: стр. 468-472.) У него также есть пост в блоге на эту тему с некоторыми вопросами и ответами .
ДОПОЛНИТЕЛЬНОЕ РЕДАКТИРОВАНИЕ: Ваше описание байесовского процесса также не совсем корректно. Байесовцы заботятся только о том, что говорят нам данные, в свете того, что мы знали независимо от данных. (Как указывает Крушке, априор не обязательно происходит перед данными. Это то, что подразумевает эта фраза, но на самом деле это только наше знание, исключающее некоторые данные.) То, что мы знали независимо от определенного набора данных, может быть расплывчатым или конкретным и может основываться на консенсусе, модели лежащего в основе процесса генерации данных, или может быть просто результатом другого (не обязательно предварительного) эксперимента.
источник
этот документ может представлять интерес: http://arxiv.org/pdf/0906.4032v1.pdf
В нем дается хорошее резюме некоторых частых и байесовских подходов к проблеме двух примеров, а также обсуждаются как параметрические, так и непараметрические случаи.
Вероятности для данных в каждом случае:
Надеюсь, что это поможет вместе с другими уже опубликованными ответами.
источник
Учитывая данные, насколько сильно мы считаем, что 2 группы не принадлежат к одной и той же популяции (H_1: они не принадлежат к одной и той же популяции по сравнению с H_0: они принадлежат к одной и той же популяции). Это можно сделать с помощью байесовского t-критерия.
Сложность используется, чтобы выяснить, насколько априор совпадает с одной гипотезой. Fit используется, чтобы выяснить, насколько апостериор перекрывается с одной гипотезой. В совокупности вы можете сравнить гипотезы и выразить свое убеждение в том, что они принадлежат одной и той же популяции.
источник