Как подобрать дискретное распределение для подсчета данных?

17

У меня есть следующая гистограмма данных подсчета. И я хотел бы приспособить к этому дискретное распределение. Я не уверен, как я должен идти об этом.введите описание изображения здесь

Должен ли я сначала наложить на гистограмму дискретное распределение, скажем, отрицательное биномиальное распределение, чтобы получить параметры дискретного распределения, а затем выполнить тест Колмогорова – Смирнова для проверки p-значений?

Я не уверен, является ли этот метод правильным или нет.

Есть ли общий метод решения такой проблемы?

Это таблица частот данных подсчета. В моей проблеме я фокусируюсь только на ненулевых показателях.

  Counts:     1    2    3    4    5    6    7    9   10 
 Frequency: 3875 2454  921  192   37   11    1    1    2 

ОБНОВЛЕНИЕ: Я хотел бы спросить: я использовал функцию fitdistr в R, чтобы получить параметры для подгонки данных.

fitdistr(abc[abc != 0], "Poisson")
     lambda  
  1.68147852 
 (0.01497921)

Затем я строю функцию вероятностного распределения Пуассона на вершине гистограммы. введите описание изображения здесь

Однако, похоже, что распределение Пуассона не в состоянии моделировать данные подсчета. Что я могу сделать?

user1769197
источник
3
Общий метод состоит в том, чтобы использовать максимальную вероятность, чтобы соответствовать распределению кандидата. Что вы подразумеваете под наложением распределения для получения параметров, непонятно, но если вы имеете в виду угадывание значений параметров, пока не получите хорошее соответствие, это паршивый метод. Колмогоров-Смирнов здесь бесполезен. Вам нужно достойное программное обеспечение, которое дает непонятные результаты, поэтому вам нужно указать предпочитаемое вами программное обеспечение, чтобы люди, использующие его, могли попытаться вам помочь. Ваша гистограмма не ясна, но если есть пробелы, то распределение, скорее всего, не подойдет.
Ник Кокс
3
Хотя использование теста KS таким способом является паршивым методом (и в любом случае тест KS не для дискретных распределений), можно было бы оценить параметры путем минимизации статистики KS по всем возможным значениям параметров; но если вы идете этим путем (оптимизируя некоторую степень соответствия), минимальный хи-квадрат будет более типичным подходом. Как предполагает Ник Кокс, ML будет очевидной вещью, почти наверняка более эффективной, более легкой для устранения стандартных ошибок и более легко воспринимаемой другими. (Существуют и другие возможности, например, метод моментов, но ML - это главное.)
Glen_b
Я использую R. Когда вы говорите, оценивая MLE, есть ли алгоритмы, которые вы порекомендуете для работы? И после нахождения ML, что я должен делать дальше?
user1769197
Я бы начал здесь ?MASS::fitdistr, поскольку он уже находится в вашем дистрибутиве R (см. Последний пример внизу; для получения дополнительной информации об этой параметризации отрицательного бинома см. Rnegbin). .... « А после того, как я нашел ML, что мне делать дальше? » - ну, в этот момент у вас есть оценки параметров и стандартные ошибки. Помимо этого, что вы хотите достичь? - Я не могу догадаться.
Glen_b
Мне приходит в голову, что вы, возможно, пытались спросить: «Как я могу оценить соответствие моей модели?». Если это так, не могли бы вы обновить свой вопрос, чтобы отразить это?
Glen_b

Ответы:

17

Методы подбора дискретных распределений

Существует три основных метода *, используемых для подбора (оценки параметров) дискретных распределений.

1) Максимальная вероятность

Он находит значения параметров, которые дают наилучшие шансы для предоставления вашей выборки (с учетом других предположений, таких как независимость, постоянные параметры и т. Д.)

2) Метод моментов

Это находит значения параметров, которые делают первые несколько моментов населения совпадающими с вашими моментами выборки. Это часто довольно легко сделать, и во многих случаях дает довольно разумные оценки. Это также иногда используется для предоставления начальных значений для процедур ML.

3) Минимальный хи-квадрат

Это сводит к минимуму добротность хи-квадрат статистики соответствия по дискретному распределению, хотя иногда для больших наборов данных конечные категории могут быть объединены для удобства. Это часто работает довольно хорошо, и даже в некоторых ситуациях, возможно, имеет некоторые преимущества перед ML, но обычно оно должно повторяться до конвергенции, и в этом случае большинство людей предпочитают ML.

Первые два метода также используются для непрерывных распределений; третий обычно не используется в этом случае.

Это ни в коем случае не является исчерпывающим списком, и было бы вполне возможно оценить параметры, минимизировав, например, статистику KS - и даже (если вы отрегулируете для дискретности), получить из нее область совместного созвучия , если бы вы были так склонен. Поскольку вы работаете в R, оценка ML довольно легко получить для отрицательного бинома. Если ваш образец был в x, это так просто, как library(MASS);fitdistr (x,"negative binomial"):

> library(MASS) 
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
     size         mu    
  3.6200839   6.3701156 
 (0.8033929) (0.4192836)

Это оценки параметров и их (асимптотические) стандартные ошибки.

В случае распределения Пуассона MLE и MoM оба оценивают параметр Пуассона в среднем по выборке.

Если вы хотите увидеть примеры, вы должны опубликовать некоторые фактические счета. Обратите внимание, что ваша гистограмма была сделана с выбранными бинами, так что категории 0 и 1 объединены, и у нас нет необработанных отсчетов.

Насколько я могу догадаться, ваши данные примерно таковы:

    Count:  0&1   2   3   4   5   6  >6    
Frequency:  311 197  74  15   3   1   0

Но большие числа будут неопределенными (это в значительной степени зависит от того, насколько точно нижние значения представлены счетчиками пикселей их высот столбцов), и они могут быть кратны этим числам, например, вдвое больше этих чисел (необработанные значения влияют стандартные ошибки, поэтому имеет значение, имеют ли они эти значения или в два раза больше)

Объединение первых двух групп делает его немного неловким (это можно сделать, но не так просто, если объединить некоторые категории. В этих первых двух группах много информации, поэтому лучше не допускать, чтобы гистограмма по умолчанию смешивала их). ).


* Конечно, возможны и другие методы подгонки дискретных распределений (например, можно сопоставить квантили или свести к минимуму другие качества статистики подгонки). Те, которые я упоминаю, кажутся самыми распространенными.

Glen_b - Восстановить Монику
источник
+1, приятная информация. Просто из любопытства, почему вы часто используете 1)вместо разметки нумерацию, которую поддерживает CV (т. 1.Е. - которая приводит к отступу)?
gung - Восстановить Монику
1
@ Gung В основном, я не думаю об этом - я предпочитаю, чтобы мои списки выглядели так, как я их печатаю; но когда я думаю об этом, я нахожу редактирование уценки цифрами, которые я печатаю, так, как они думают, они должны быть очень раздражающими (если я набрал «36», я действительно не имел в виду «1») ... так что когда мне пришло в голову использовать «1» вместо "1)", я часто в конечном итоге набираю "1 \". явно, чтобы помешать ему признать это и делать то, что я не собирался. Я так настроился на это поведение за 5 лет reddit, что даже не думаю об этом - в итоге я автоматически вмешивался в него по привычке.
Glen_b
1
@gung Если бы отступ был намного меньше, я, вероятно, был бы склонен мириться с опасностью перенумерации и использовать ее. Как обычно, я обычно отвлекаюсь, когда вижу это. Но в данном конкретном случае я хотел, чтобы они выглядели более похожими на подзаголовки, поэтому я бы, вероятно, избежал этого, даже если бы меня не оттолкнуло поведение. (С другой стороны, в тех случаях, когда другие люди решили редактировать мои списки, чтобы сделать отступ, я обычно оставляю их для себя. Если они хотят, чтобы это выглядело определенным образом, они могут, если это не не меняйте значение.)
меняйте
Я постараюсь сдержать себя ;-).
gung - Восстановить Монику
2

В редактировании вы дали некоторые данные и добавили новый вопрос:

«Это таблица частот данных подсчета. В моей задаче я концентрируюсь только на ненулевых подсчетах.

   Counts:     1    2    3    4    5    6    7    9   10 
Frequency:  3875 2454  921  192   37   11    1    1    2 

Кто-нибудь может дать мне пример того, как вы проведете здесь тест на пригодность по критерию хи-квадрат? "

Это приводит к дальнейшим комментариям:

  1. Имея нули, но желая игнорировать их, может иметь смысл, но обычно статистические и предметные люди хотели бы видеть веские причины для этого.

  2. Если вы решите игнорировать нули, вы помещаете себя в сложную территорию, поскольку вы не можете просто запустить процедуры, например, для Пуассона или отрицательного бинома, если вы пропустите нули. Ну, вы можете, но ответы будут неправильными. Вам нужны специальные функции или команды для распределений, таких как усеченный по нулю пуассоновский или усеченный до нуля отрицательный бином. Это сложный вопрос, и для того, чтобы понять, чем вы занимаетесь, необходимо специальное чтение.

  3. Вопрос о том, как сделать тест хи-квадрат, подсказывает мне, что вы на самом деле не поняли, что я сказал очень кратко, и @Glen_b сказал гораздо более подробно (и, на мой взгляд, очень четко). Разделив это на две части:

    • Не может быть теста хи-квадрат без ожидаемых частот, и не может быть ожидаемых частот без оценки параметров. Возможно, вы наиболее знакомы с процедурами тестирования хи-квадрат, в которых проверяется независимость строк и столбцов в двусторонней таблице. Хотя это тест хи-квадрат, который наиболее часто встречается на вводных курсах, на самом деле он очень необычен среди тестов хи-квадрат в том смысле, что обычное программное обеспечение фактически выполняет оценку параметров для вас и, таким образом, получает ожидаемые частоты. Кроме того, в большинстве более сложных задач, таких как ваша, вы должны сначала получить оценки параметров.

    • Тест хи-квадрат не ошибочен, но если вы оцениваете параметры по максимальной вероятности, он не имеет значения, так как процедура подгонки дает вам оценки и стандартные ошибки и позволяет проводить тесты по их следам. @Glen_b привел пример уже в своем ответе.

Побочной проблемой является то, что было бы более понятным настроить ваши гистограммы, чтобы учесть дискретность переменной и показать вероятности, а не плотности. Очевидные пробелы - это просто артефакты выбора бина по умолчанию, не учитывающие дискретность переменной.

ОБНОВЛЕНИЕ: дополнительный вопрос о тесте хи-квадрат теперь удален. На данный момент я оставляю № 3 выше, на случай, если кто-то другой пойдет по тому же пути, желая получить критерий хи-квадрат.

Ник Кокс
источник
Я должен игнорировать нули, потому что я пытаюсь смоделировать активные счета. Счетчик = 0 называется неактивным счетчиком.
user1769197
Это существенный выбор. Обратите внимание, что во многих областях существуют так называемые модели с двумя частями, в которых вы моделируете (в ваших терминах) активный, а не активный, а затем насколько активный.
Ник Кокс
Я попытался настроить гистограммы, выполнив «plot (table (abc), type =" h ")". Но я не уверен, как я могу получить это, чтобы показать вероятности
user1769197
Я не использую R, но вы можете получить совет по этому поводу. Возможно, вам придется спросить отдельно.
Ник Кокс