У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных:
Вот гистограмма данных:
Судя по источнику данных, я решил, что это будет соответствовать распределению Пуассона. Тем не менее, средняя ≠ дисперсия и гистограмма сильно взвешены влево. Кроме того, я запустил goodfit
тест в R и получил:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Метод максимального правдоподобия также дал p-значение = 0. Предполагая, что нулевая гипотеза такова: данные соответствуют распределению Пуассона (в документации это не указано), тогда goodfit
тест говорит, что мы должны отклонить нулевую гипотезу, поэтому данные не соответствует распределению Пуассона.
Правильный ли этот анализ? Если да, то как вы думаете, какой дистрибутив будет соответствовать этим данным?
Моя конечная цель состоит в том, чтобы сравнить среднее количество действий между двумя образцами, чтобы увидеть, отличаются ли средства; проверка распространения даже необходима? Насколько я понимаю, типичные тесты (z-, t-, тесты) не работают для распределений Пуассона. Какой тест я должен использовать, если данные действительно распределены по Пуассону?
Ответы:
Если дисперсия больше среднего, это называется чрезмерной дисперсией. Естественной моделью для этого является отрицательное биномиальное распределение. Это также можно рассматривать как распределение Пуассона, где лямбда-параметр следует гамма-распределению. Первым и легким шагом может быть подбор отрицательного биномиального распределения.
источник
Если ваши необработанные данные не похожи на распределение Пуассона, значит, вы что-то упустили. Возможно, количество действий зависит от температуры, поэтому в жаркие дни люди делают меньше вещей. Тогда изменение температуры в течение периода обучения повлияет на распределение и сделает его не пуассоновским.
Тем не менее, число действий каждый день может быть пуассоновским со средним значением, зависящим от температуры. Если у вас есть температура каждый день, то вы можете выполнить GLM, регрессируя число действий как переменную Пуассона, в зависимости от температуры. Если это подходит, работа сделана.
Если у вас нет возможных объяснительных переменных, то все, что вы можете сказать, это «что-то еще происходит - число действий не из независимых выборок Пуассона» - то есть отвергнуть вашу нулевую гипотезу.
Существуют тесты без распространения, которые могут сравнивать парные наблюдения с помощью ранжирования и так далее. Обычно они выполняют большое количество перестановок и вычисляют статистику теста ...
источник
Еще одна вещь: вы должны исследовать выбросы в данных подсчета тоже. У вас есть один счет на 400-й и затем ничего до 800-й. Это вряд ли подойдет ни одной из распространенных моделей.
источник
Похоже, вы подсчитываете число нулевых событий - если это так, то вы можете рассмотреть модель ZIP (или барьер) - обратитесь к обзору моделей регрессии для данных подсчета в R Zeileis et al.
Подводя итог, можно сказать, что эти методы моделируют нулевые значения отдельно от остальных значений, которые могут быть полезны в вашем случае.
См.
pscl
Пакетzeroinfl()
иhurdle()
функции и.источник
Я подозреваю, что ваша гистограмма обманчива. Если у вас есть чуть более 300 наблюдений, равномерно распределенных по всему диапазону 0-50, примерно 320 равномерно распределенных по всему диапазону 50-100 и 50 или более выше 100, ваше среднее значение должно быть значительно больше 18,2.
Если данные в диапазоне 0-50 не распределены равномерно, а сконцентрированы около нуля, то удивительно видеть больше в диапазоне 50-100, чем в диапазоне 0-50.
Возможно, у вас есть смесь распределений. Я сомневаюсь, что кто-то может многое сделать с этим без фактических 696 наблюдений и особенно, не зная больше о контексте. Является ли каждое из 696 наблюдений отдельным человеком, и является ли ответ количеством действий, предпринятых каждым человеком? Если да, то есть ли в данных разные типы людей?
источник