Я пытался соответствовать моим данным в различные модели и выяснил , что fitdistr
функция из библиотеки MASS
из R
дает мне , Negative Binomial
как наиболее подходящее. Теперь со страницы вики определение дается как:
Распределение NegBin (r, p) описывает вероятность k неудач и r успехов в k + r испытаниях Бернулли (p) с успехом в последнем испытании.
Использование R
для подбора модели дает мне два параметра mean
и dispersion parameter
. Я не понимаю, как их интерпретировать, потому что я не вижу эти параметры на вики-странице. Все, что я вижу, это следующая формула:
где k
число наблюдений и r=0...n
. Теперь, как мне связать их с параметрами, заданными R
? Файл справки также не предоставляет много информации.
Также, чтобы сказать несколько слов о моем эксперименте: в социальном эксперименте, который я проводил, я пытался подсчитать количество людей, с которыми каждый пользователь связался в течение 10 дней. Численность населения была 100 для эксперимента.
Теперь, если модель соответствует отрицательному биномиальному, я могу слепо сказать, что оно следует этому распределению, но я действительно хочу понять интуитивное значение этого. Что значит сказать, что число людей, с которыми связались мои подопытные, следует за отрицательным биномиальным распределением? Может кто-нибудь, пожалуйста, помогите прояснить это?
источник
Как я упоминал в моем предыдущем посте, я работаю над тем, чтобы подготовить распределение для подсчета данных. Вот что я узнал:
Когда дисперсия больше, чем среднее значение, избыточная дисперсия очевидна, и, таким образом, отрицательное биномиальное распределение, вероятно, является подходящим. Если дисперсия и среднее совпадают, то предлагается распределение Пуассона, а когда дисперсия меньше среднего, рекомендуется биномиальное распределение.
С данными подсчета, над которыми вы работаете, вы используете «экологическую» параметризацию отрицательной биномиальной функции в R. Раздел 4.5.1.3 (стр. 165) следующей свободно доступной книги говорит об этом конкретно (в контексте R, не меньше!) и, я надеюсь, может ответить на некоторые ваши вопросы:
http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Если вы придете к выводу, что ваши данные усечены до нуля (т. Е. Вероятность 0 наблюдений равна 0), то вы, возможно, захотите проверить усеченный до нуля вариант NBD, который находится в пакете R VGAM .
Вот пример его применения:
Я надеюсь, что это полезно.
источник