Как проверить, соответствует ли выборка данных гамма-распределению?

У меня есть выборка данных, которые были сгенерированы из непрерывной случайной величины X. И из гистограммы, которую я рисую с использованием R, я предполагаю, что, возможно, распределение X подчиняется определенному гамма-распределению. Но я не знаю точных параметров этого гамма-распределения.

Мой вопрос заключается в том, как проверить, принадлежит ли распределение X к семейству гамма-распределений? Существуют некоторые критерии соответствия, такие как критерий Колмогорова-Смирнова, критерий Андерсона-Дарлинга и т. Д., Но одним из ограничений при использовании этих критериев является то, что параметры теоретического распределения должны быть известны заранее. Кто-нибудь, пожалуйста, скажите мне, как решить эту проблему?

distributions hypothesis-testing goodness-of-fit gamma-distribution user8363
источник

Возможно, я что-то упускаю, но если вы уже знаете о тесте для проверки соответствия распределения, и все, что вам нужно знать, это значения теоретического распределения, то вы могли бы просто использовать оценки максимального правдоподобия параметров гаммы Распределение по вашим данным, чтобы получить оценки параметров. Затем вы можете использовать эти оценки для определения теоретического распределения в вашем тесте.

Дэвид

Дэвид, спасибо за ваш ответ. Ответ также о чем я думал, но я не уверен, есть ли какие-то теории, которые могут поддержать эту идею, не могли бы вы ответить на это для меня?

user8363

Если вы используете R, вам может быть интересно взглянуть на пакет fitdistrplus , в котором есть возможности для подобных вещей.

gung - Восстановить Монику

Ответы:

Я думаю, что вопрос требует точного статистического теста, а не сравнения гистограмм. При использовании теста Колмогорова-Смирнова с оценочными параметрами распределение статистики теста при нулевом значении зависит от тестируемого распределения, в отличие от случая без оцениваемого параметра. Например, используя (в R)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

приводит к

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

пока мы получаем

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided

для того же образца х. Таким образом, уровень значимости или значение p должны быть определены с помощью моделирования Монте-Карло при нулевом значении, что дает распределение статистики Колмогорова-Смирнова по выборкам, моделируемым при расчетном распределении (с небольшим приближением в результате, учитывая, что наблюдаемая выборка приходит из другого дистрибутива, даже под нулевым).

Сиань
источник

(+1) Я не понимаю, почему правильно моделировать выборки при предполагаемом распределении. Я бы подумал, что нам нужен априор для параметров и выборка из всех возможных распределений ... не могли бы вы объяснить немного больше?

Элвис

Сиань, твой ответ - именно то, о чем я беспокоюсь. Вы имеете в виду, что «При использовании теста Колмогорова-Смирнова с оценочными параметрами распределение статистики теста по нулю зависит от тестируемого распределения». Однако мы не знаем распределение X, точнее, мы не знаем параметр распределения X при нулевой гипотезе, следовательно, распределение тестовой статистики, поэтому мы используем Монте-Карло. У вас были бы другие способы решить эту проблему, не используя Монте-Карло для получения значения P? Спасибо

user8363

Чтобы принять во внимание тот факт, что «наблюдаемая выборка происходит из другого распределения даже под нулевым значением», не будет ли уместным выполнить ее выборку, переоценивая параметры в каждой копии?

Элвис

@ Элвис (1): это классическая статистика, а не байесовское решение проблемы добротности соответствия. Для распределений с параметрами масштаба местоположения выбор параметров, используемых для моделирования моделируемых выборок, не имеет значения.

Сиань

@ Элвис (2): Снова кое-что, что я только что обсудил со своими учениками! Bootstrap поможет оценить поведение расстояния Колмогорова-Смирнова при истинном распределении данных, а не при нулевом! Принцип Фишера-Неймана-Пирсона заключается в том, что имеет значение поведение расстояния Колмогорова-Смирнова под нулем, поэтому оно отклоняется, если наблюдаемое расстояние слишком велико по отношению к этому распределению под нулем.

Сиань

Вычислите MLE параметров, принимая гамма-распределение для ваших данных, и сравните теоретическую плотность с гистограммой ваших данных. Если они сильно различаются, распределение гаммы является плохим приближением ваших данных. Для формального теста вы можете вычислить, например, статистику теста Колмогорова-Смирнова, сравнивая наиболее подходящее гамма-распределение с эмпирическим распределением и проверкой на значимость.

макрос
источник

+1, это солидный ответ. Тем не менее, я бы предложил изучить qq-график против теоретической гаммы, а не гистограммы - это будет легче оценить на предмет отклонений.

gung - Восстановить Монику

Проблема состоит в том, что тест KS предполагает теоретическое распределение, которое должно быть дано заранее, а не оценено по данным. Сиань (частично) ответил на этот вопрос ...

Элвис

Вы имеете в виду, что мы сначала используем эту выборку данных для получения оценщика MLS и используем значение оценщика MLS в гамма-распределении, а затем сравниваем данные с гамма-распределением (с оценочным параметром) с помощью теста KS?

user8363

Элвис, подскажите, пожалуйста, как решить проблему, когда параметр теоретического распределения неизвестен и его необходимо оценить. В этом случае, как можно использовать тест KS, чтобы получить относительно точную оценку гипотезы, спасибо!

user8363

@ Элвис: Я не думаю, что точный вывод возможен в случае гамма-распределения. Сам файл cdf недоступен в закрытом виде. Кроме того, тот факт, что параметр формы не является ни масштабом, ни местоположением, означает, что существует различное распределение для каждого значения параметра формы ...

Сиань