Как рассчитать покрытие дискретного интервала?
Что я умею делать:
Если бы у меня была непрерывная модель, я мог бы определить 95% доверительный интервал для каждого из моих прогнозируемых значений, а затем посмотреть, как часто фактические значения были в пределах доверительного интервала. Я мог бы обнаружить, что только в 88% случаев мой 95% доверительный интервал покрывал фактические значения.
Что я не знаю как сделать:
Как мне сделать это для дискретной модели, такой как пуассон или гамма-пуассон? Что у меня есть для этой модели, так это одно наблюдение (из 100 000, которые я планирую генерировать :)
Наблюдение №: (произвольно)
Прогнозируемая стоимость: 1,5
Прогнозируемая вероятность 0: .223
Прогнозируемая вероятность 1: .335
Прогнозируемая вероятность 2: .251
Прогнозируемая вероятность 3: .126
Прогнозируемая вероятность 4: .048
Прогнозируемая вероятность 5: 0,014 [и 5 или больше 0,019]
...(так далее)
Прогнозируемая вероятность 100 (или некоторой нереалистичной цифры): .000
Фактическое значение (целое число, например «4»)
Обратите внимание, что, хотя я и дал значения Пуассона выше, в реальной модели прогнозируемое значение 1,5 может иметь разные прогнозируемые вероятности 0,1, ... 100 по наблюдениям.
Я смущен дискретностью ценностей. «5» явно выходит за интервал 95%, так как есть только 0,019 при 5 и выше, что меньше, чем 0,025. Но будет много 4-х - по отдельности они находятся внутри, но как мне более правильно оценить количество 4-х?
Почему меня это волнует?
Модели, на которые я смотрю, подвергались критике за точность на агрегированном уровне, но за плохие индивидуальные прогнозы. Я хочу увидеть, насколько хуже плохие индивидуальные прогнозы, чем изначально широкие доверительные интервалы, предсказанные моделью. Я ожидаю, что эмпирическое покрытие будет хуже (например, я могу обнаружить, что 88% значений лежат в пределах 95% доверительного интервала), но я надеюсь, что только немного хуже.
источник