Допустим, у вас есть набор значений, и вы хотите знать, более ли вероятно, что они были выбраны из гауссова (нормального) распределения или из логнормального распределения?
Конечно, в идеале вы должны были бы что-то знать о населении или об источниках экспериментальной ошибки, поэтому имели бы дополнительную информацию, полезную для ответа на вопрос. Но здесь, предположим, у нас есть только набор чисел и никакой другой информации. Что является более вероятным: выборка по Гауссу или выборка по логнормальному распределению? Насколько более вероятно? Я надеюсь на алгоритм выбора между двумя моделями и, надеюсь, количественную оценку относительной вероятности каждой из них.
normal-distribution
lognormal
Харви Мотульский
источник
источник
Ответы:
Вы можете сделать наиболее точную оценку типа распределения, подгоняя каждое распределение (нормальное или логнормальное) к данным с максимальной вероятностью, а затем сравнивая логарифмическое правдоподобие для каждой модели - модель с наибольшим логарифмическим правдоподобием, которая наилучшим образом подходит. Например, в R:
Теперь сгенерируйте числа из нормального распределения и подгоните нормальное распределение по ML:
Производит:
Сравните правдоподобие для соответствия ML нормального и логнормального распределений:
Попробуйте с логнормальным дистрибутивом:
Назначение не будет идеальным, в зависимости от n, среднего и сд:
источник
p(X|\theta)
). Мы не трансформируем данные. Распечатываем распределение, для которого вероятность наблюдения данных самая высокая. Этот подход является законным, но имеет недостаток, заключающийся в том, что мы не определяем вероятность модели с учетом данныхp(M|X)
, то есть вероятность того, что данные получены из нормального и логнормального распределения (например, p (нормальное) = 0,1, p (логнормальное) = 0,9) в отличие от байесовского подхода.Трудная часть заключается в получении предельной вероятности ,
Пример:
Согласно Мерфи (2007) (уравнение 203), предельная вероятность нормального распределения определяется как
I use the same hyperparameters for the log-normal distribution,
Для предварительной вероятности нормального логарифма0,1 , п( М= Логарифмическая нормаль ) = 0,1 и данные, взятые из следующего лог-нормального распределения,
задний ведет себя так:
Сплошная линия показывает среднюю апостериорную вероятность для разных розыгрышейN Точки данных. Обратите внимание на то, что по небольшим или никаким данным убеждения близки к предыдущим убеждениям. Приблизительно для 250 точек данных алгоритм почти всегда уверен, что данные были получены из лог-нормального распределения.
При реализации уравнений было бы неплохо работать с логарифмическими плотностями вместо плотностей. Но в остальном все должно быть довольно просто. Вот код, который я использовал для создания графиков:
https://gist.github.com/lucastheis/6094631
источник
Похоже, вы ищете что-то весьма прагматичное, чтобы помочь аналитикам, которые, вероятно, не являются профессиональными статистиками и нуждаются в чем-то, что побуждает их делать то, что должно быть стандартными исследовательскими методами, такими как просмотр графиков qq, графиков плотности и т. Д.
В таком случае, почему бы просто не выполнить тест нормальности (Shapiro-Wilk или любой другой) для исходных данных и один для данных, преобразованных в журнал, и, если второе значение p выше, поднимите флаг для аналитика, чтобы рассмотреть возможность использования преобразования журнала ? В качестве бонуса выложите график 2 x 2 графика линейной плотности и график qqnorm необработанных и преобразованных данных.
Технически это не ответит на ваш вопрос об относительной вероятности, но мне интересно, если это все, что вам нужно.
источник