Измерение качества соответствия в модели, которая объединяет два распределения

9

У меня есть данные с двойным пиком, которые я пытаюсь смоделировать, и между пиками достаточно совпадений, поэтому я не могу обработать их независимо. Гистограмма данных может выглядеть примерно так:

альтернативный текст

Для этого я создал две модели: одна использует два распределения Пуассона, а другая использует два отрицательных биномиальных распределения (для учета избыточной дисперсии). Как правильно определить, какая модель более точно соответствует данным?

Сначала я подумал, что я мог бы использовать тест Колмогорова-Смирнова для сравнения каждой модели с данными, а затем провести тест отношения правдоподобия, чтобы определить, подходит ли он значительно лучше. Имеет ли это смысл? Если это так, я не совсем уверен, как выполнить тест отношения правдоподобия. Подходит ли хи-квадрат и сколько у меня степеней свободы?

Если это поможет, некоторый (очень упрощенный) R-код для моделей может выглядеть примерно так:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Изменить: Вот изображение, которое может объяснить данные и распределения, которые я лучше подхожу. Из визуализации совершенно ясно, что вторая модель (использующая отрицательное биномиальное расстояние для учета избыточной дисперсии) лучше подходит. Я хотел бы показать это количественно, хотя. альтернативный текст

(красный - данные, зеленый - модель)

chrisamiller
источник
Вы знаете распределение вероятностей значений в каждом бине ? Метка оси Y заставляет меня думать, что это может быть пуассоновский или многочлен? (при условии, что модель дает среднее значение в каждой корзине)
Андре Хольцнер,
Данные по существу взяты из двух процессов Пуассона, но есть скрытые переменные, которые я не могу исправить, что приводит к чрезмерной дисперсии. Таким образом, отрицательный бином является лучшей моделью. (см. новое изображение / текст, который я добавил выше). Мне нужно показать, что моя модель nb лучше подходит количественно.
chrisamiller
1
Как насчет показателя типа среднеквадратичной ошибки между фактическими и прогнозными значениями?
Хммм, мне нравится эта идея, Срикант. Это намного проще, чем я думал, но все же имеет смысл. Прибавьте ответ ниже, чтобы я мог зачесть его и прислать вам своего представителя. Мне все еще интересно услышать другие методы, но пока это может сработать.
chrisamiller

Ответы:

4

Вы можете использовать метрику, такую ​​как средняя квадратичная ошибка между фактическими и прогнозными значениями, чтобы сравнить две модели.


источник
1
Это был правильный ответ для моей конкретной ситуации, хотя ответ Glen_b помог мне узнать больше. Так что больше голосов за него, принял ответ за Srikant. Все побеждают - спасибо всем.
Крисамиллер
8

Вы не можете сравнивать их напрямую, так как у Отрицательного Бинома больше параметров. Действительно, Пуассон «вложен» в отрицательный бином в том смысле, что это ограничивающий случай, поэтому NegBin всегда будет соответствовать лучше, чем Пуассон. Однако это позволяет рассматривать что-то вроде теста отношения правдоподобия, но тот факт, что Пуассон находится на границе пространства параметров для отрицательного бинома, может повлиять на распределение статистики теста.

В любом случае, даже если разница в количестве параметров не была проблемой, вы не можете делать тесты KS напрямую, потому что у вас есть оценочные параметры, а KS специально для случая, когда указаны все параметры. Ваша идея использования начальной загрузки имеет дело с этой проблемой, но не первой (разница в количестве параметров)

Я также хотел бы рассмотреть плавные тесты на пригодность соответствия (например, см. Книгу Рейнера и Беста), которая, например, может привести к разбиению критерия соответствия критерия хи-квадрат на интересующие компоненты (измерение отклонений от модели Пуассона). в данном случае) - если сказать четвертый или шестой порядок, это должно привести к проверке с хорошей мощностью для альтернативы NegBin.

(Редактировать: вы можете сравнить свои пуассоновские и негбиновые посадки с помощью теста хи-квадрат, но он будет иметь низкое энергопотребление. Разделение хи-квадрата и просмотр только первых 4-6 компонентов, как это делается при гладких тестах, может помочь лучше .)

Glen_b - Восстановить Монику
источник
Спасибо. Это проясняет кучу вещей и открывает целый ряд новых вопросов, над которыми мне придется провести некоторые исследования. Я предполагаю, что мой главный вопрос заключается в том, означает ли то, что вы говорите, что-то более простое, например, просто принять среднеквадратичную ошибку, не является ли правильным способом решения этой проблемы? Я признаю, что это, вероятно, не так надежно и не даст мне p-значение, но это то, что я мог бы сделать быстро, пытаясь найти копию книги, на которую вы ссылаетесь. Любые мысли будут оценены.
chrisamiller
2
представьте, что у вас есть набор точек (x, y), и вы рассматриваете вопрос о том, подойдет ли вам прямая или квадратичная линия. Если вы сравниваете среднеквадратическое среднеквадратичное отклонение, квадратичное значение всегда будет бить прямую линию , потому что линия является квадратичной с одним параметром, установленным в ноль: если оценка параметра наименьших квадратов равна нулю (что имеет нулевую вероятность для непрерывного ответа), это галстук, и в любом другом случае линия проигрывает. То же самое с Пуассоном против отрицательного бинома - свободный отрицательный бином может всегда соответствовать как минимум так же, как и свободный Пуассон.
Glen_b
Хорошее объяснение - я понимаю, что вы говорите сейчас. Я думаю, что мой случай немного отличается, потому что я не делаю регрессию для подбора, а скорее, я основываю дополнительный параметр NB на внешней информации (я ожидаю, что отношение var / mean будет N). Поскольку Пуассон является особым случаем, когда N = 1, то, что я действительно сравниваю, это выбор N. Я согласен, что если бы я делал регрессию, NB всегда мог бы найти лучшее соответствие, потому что он менее ограничен. В моем случае, когда я выбираю значение для N заранее, было бы возможно выбрать какое-то безумное значение N, которое ухудшит подгонку.
chrisamiller
Я, конечно, собираюсь прочитать о плавных тестах на пригодность, которые вы предложили, хотя. Спасибо за информативные ответы.
chrisamiller
Извините, что не понял, что данные не вошли в выбор параметра сверхдисперсии. Могут быть некоторые аргументы для того, чтобы сделать это по-своему, но если внешняя оценка, вероятно, будет отражать то, что вы действительно наблюдаете, NB все же может иметь некоторое преимущество в зависимости от обстоятельств.
Glen_b