У меня есть следующая гистограмма данных подсчета. И я хотел бы приспособить к этому дискретное распределение. Я не уверен, как я должен идти об этом.
Должен ли я сначала наложить на гистограмму дискретное распределение, скажем, отрицательное биномиальное распределение, чтобы получить параметры дискретного распределения, а затем выполнить тест Колмогорова – Смирнова для проверки p-значений?
Я не уверен, является ли этот метод правильным или нет.
Есть ли общий метод решения такой проблемы?
Это таблица частот данных подсчета. В моей проблеме я фокусируюсь только на ненулевых показателях.
Counts: 1 2 3 4 5 6 7 9 10
Frequency: 3875 2454 921 192 37 11 1 1 2
ОБНОВЛЕНИЕ: Я хотел бы спросить: я использовал функцию fitdistr в R, чтобы получить параметры для подгонки данных.
fitdistr(abc[abc != 0], "Poisson")
lambda
1.68147852
(0.01497921)
Затем я строю функцию вероятностного распределения Пуассона на вершине гистограммы.
Однако, похоже, что распределение Пуассона не в состоянии моделировать данные подсчета. Что я могу сделать?
?MASS::fitdistr
, поскольку он уже находится в вашем дистрибутиве R (см. Последний пример внизу; для получения дополнительной информации об этой параметризации отрицательного бинома см. Rnegbin). .... « А после того, как я нашел ML, что мне делать дальше? » - ну, в этот момент у вас есть оценки параметров и стандартные ошибки. Помимо этого, что вы хотите достичь? - Я не могу догадаться.Ответы:
Методы подбора дискретных распределений
Существует три основных метода *, используемых для подбора (оценки параметров) дискретных распределений.
1) Максимальная вероятность
Он находит значения параметров, которые дают наилучшие шансы для предоставления вашей выборки (с учетом других предположений, таких как независимость, постоянные параметры и т. Д.)
2) Метод моментов
Это находит значения параметров, которые делают первые несколько моментов населения совпадающими с вашими моментами выборки. Это часто довольно легко сделать, и во многих случаях дает довольно разумные оценки. Это также иногда используется для предоставления начальных значений для процедур ML.
3) Минимальный хи-квадрат
Это сводит к минимуму добротность хи-квадрат статистики соответствия по дискретному распределению, хотя иногда для больших наборов данных конечные категории могут быть объединены для удобства. Это часто работает довольно хорошо, и даже в некоторых ситуациях, возможно, имеет некоторые преимущества перед ML, но обычно оно должно повторяться до конвергенции, и в этом случае большинство людей предпочитают ML.
Первые два метода также используются для непрерывных распределений; третий обычно не используется в этом случае.
Это ни в коем случае не является исчерпывающим списком, и было бы вполне возможно оценить параметры, минимизировав, например, статистику KS - и даже (если вы отрегулируете для дискретности), получить из нее область совместного созвучия , если бы вы были так склонен. Поскольку вы работаете в R, оценка ML довольно легко получить для отрицательного бинома. Если ваш образец был в
x
, это так просто, какlibrary(MASS);fitdistr (x,"negative binomial")
:Это оценки параметров и их (асимптотические) стандартные ошибки.
В случае распределения Пуассона MLE и MoM оба оценивают параметр Пуассона в среднем по выборке.
Если вы хотите увидеть примеры, вы должны опубликовать некоторые фактические счета. Обратите внимание, что ваша гистограмма была сделана с выбранными бинами, так что категории 0 и 1 объединены, и у нас нет необработанных отсчетов.
Насколько я могу догадаться, ваши данные примерно таковы:
Но большие числа будут неопределенными (это в значительной степени зависит от того, насколько точно нижние значения представлены счетчиками пикселей их высот столбцов), и они могут быть кратны этим числам, например, вдвое больше этих чисел (необработанные значения влияют стандартные ошибки, поэтому имеет значение, имеют ли они эти значения или в два раза больше)
Объединение первых двух групп делает его немного неловким (это можно сделать, но не так просто, если объединить некоторые категории. В этих первых двух группах много информации, поэтому лучше не допускать, чтобы гистограмма по умолчанию смешивала их). ).
* Конечно, возможны и другие методы подгонки дискретных распределений (например, можно сопоставить квантили или свести к минимуму другие качества статистики подгонки). Те, которые я упоминаю, кажутся самыми распространенными.
источник
1)
вместо разметки нумерацию, которую поддерживает CV (т.1.
Е. - которая приводит к отступу)?В редактировании вы дали некоторые данные и добавили новый вопрос:
«Это таблица частот данных подсчета. В моей задаче я концентрируюсь только на ненулевых подсчетах.
Кто-нибудь может дать мне пример того, как вы проведете здесь тест на пригодность по критерию хи-квадрат? "
Это приводит к дальнейшим комментариям:
Имея нули, но желая игнорировать их, может иметь смысл, но обычно статистические и предметные люди хотели бы видеть веские причины для этого.
Если вы решите игнорировать нули, вы помещаете себя в сложную территорию, поскольку вы не можете просто запустить процедуры, например, для Пуассона или отрицательного бинома, если вы пропустите нули. Ну, вы можете, но ответы будут неправильными. Вам нужны специальные функции или команды для распределений, таких как усеченный по нулю пуассоновский или усеченный до нуля отрицательный бином. Это сложный вопрос, и для того, чтобы понять, чем вы занимаетесь, необходимо специальное чтение.
Вопрос о том, как сделать тест хи-квадрат, подсказывает мне, что вы на самом деле не поняли, что я сказал очень кратко, и @Glen_b сказал гораздо более подробно (и, на мой взгляд, очень четко). Разделив это на две части:
Не может быть теста хи-квадрат без ожидаемых частот, и не может быть ожидаемых частот без оценки параметров. Возможно, вы наиболее знакомы с процедурами тестирования хи-квадрат, в которых проверяется независимость строк и столбцов в двусторонней таблице. Хотя это тест хи-квадрат, который наиболее часто встречается на вводных курсах, на самом деле он очень необычен среди тестов хи-квадрат в том смысле, что обычное программное обеспечение фактически выполняет оценку параметров для вас и, таким образом, получает ожидаемые частоты. Кроме того, в большинстве более сложных задач, таких как ваша, вы должны сначала получить оценки параметров.
Тест хи-квадрат не ошибочен, но если вы оцениваете параметры по максимальной вероятности, он не имеет значения, так как процедура подгонки дает вам оценки и стандартные ошибки и позволяет проводить тесты по их следам. @Glen_b привел пример уже в своем ответе.
Побочной проблемой является то, что было бы более понятным настроить ваши гистограммы, чтобы учесть дискретность переменной и показать вероятности, а не плотности. Очевидные пробелы - это просто артефакты выбора бина по умолчанию, не учитывающие дискретность переменной.
ОБНОВЛЕНИЕ: дополнительный вопрос о тесте хи-квадрат теперь удален. На данный момент я оставляю № 3 выше, на случай, если кто-то другой пойдет по тому же пути, желая получить критерий хи-квадрат.
источник