Попытка рассчитать количество посещений из демографии и обслуживания. Данные очень искажены.
Гистограммы:
qq графики (слева - лог):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
и service
являются факторными переменными.
Я получаю низкое значение p *** для всех переменных, но я также получаю низкий r-квадрат 0,05. Что я должен делать? Будет ли работать другая модель, например, экспоненциальная или как?
Ответы:
Линейная регрессия не является правильным выбором для вашего результата, учитывая:
Модели с ограниченными зависимыми переменными для подсчета данных
Стратегия оценки, которую вы можете выбрать, продиктована «структурой» вашей конечной переменной. То есть, если ваша переменная результата ограничена в значениях, которые она может принять (т.е. если это ограниченная зависимая переменная ), вам нужно выбрать модель, в которой прогнозируемые значения будут находиться в пределах возможного диапазона для вашего результата. Хотя иногда линейная регрессия является хорошим приближением для ограниченных зависимых переменных (например, в случае двоичного логита / пробита), часто это не так. Введите обобщенные линейные модели . В вашем случае, поскольку итоговой переменной являются данные подсчета, у вас есть несколько вариантов:
Выбор обычно определяется опытным путем. Я кратко расскажу о выборе между этими вариантами ниже.
Пуассон против отрицательного бинома
В общем, Пуассон - это модель «общей рабочей лошадки» из четырех моделей данных, о которых я упоминал выше. Ограничением модели является предположение, что условная дисперсия = условное среднее, что не всегда может быть правдой. Если ваша модель имеет чрезмерный разброс (условная дисперсия> условное среднее), вам нужно будет использовать модель отрицательной биномиальной модели. К счастью, когда вы запускаете отрицательный бином, вывод обычно включает статистический тест для параметра дисперсии (R называет этот параметр дисперсии «theta ( )», который в других пакетах называется «альфа»). Нулевая гипотеза в выборе между пуассоновским и отрицательным биномом: , а альтернативная гипотеза .θ ЧАС0: θ = 0 ЧАС1: θ ≠ 0 θ является значительным, в модели есть признаки чрезмерного рассеяния, и вы бы выбрали Negative Binomial вместо Poisson. Если коэффициент не является статистически значимым, представьте результаты Пуассона.
ZIP против ZINB
Одним из возможных осложнений является нулевая инфляция, которая может быть проблемой здесь. Вот где приходят модели с нулевым раздувом ZIP и ZINB. Используя эти модели, вы предполагаете, что процесс, генерирующий нулевые значения, отделен от процесса, генерирующего другие ненулевые значения. Как и прежде, ZINB подходит, когда результат имеет чрезмерные нули и имеет избыточную дисперсию, в то время как ZIP подходит, когда результат имеет чрезмерные нули, но условное среднее = условная дисперсия. Для моделей с нулевым раздувом, в дополнение к ковариатам моделей, которые вы перечислили выше, вам нужно будет подумать о переменных, которые могли генерировать избыточные нули, которые вы видели в результате. Опять же, есть статистические тесты, которые поставляются с выходными данными этих моделей (иногда вам может потребоваться указать их при выполнении команды), которые позволят вамэмпирически решить, какая модель является лучшей для ваших данных. Интересны два теста: первый - это тест коэффициента параметра дисперсии а второй - так называемый тест Вуонга, который сообщает вам, генерируются ли избыточные нули отдельным процессом (т. Е. действительно, нулевая инфляция в результате).θ
Сравнивая выбор между ZIP и ZINB, вы снова посмотрите на тест параметра дисперсии . Опять же, (лучше подходит ZIP) и (лучше подходит ZINB). Тест Vuong позволяет вам принять решение между Пуассоном против ZIP или NB против ZINB. Для теста Вуонга, (Пуассон / NB лучше подходит) и (ZIP / ZINB лучше подходит).θ ЧАС0: θ = 0 ЧАС1: θ ≠ 0 ЧАС0: Eх с е с с zeroes is not a result of a separate process г е г O е S I S A R E сек у л т O F а ы е р а г а т е р г O гр е с ыH1:Excess zeroes is a result of a separate process
Другие пользователи могут комментировать «обычный» рабочий процесс, но мой подход заключается в визуализации данных и переходе оттуда. В вашем случае, я бы, вероятно, начал с ZINB и запустил как тест на коэффициент на и тест Вуонга, так как это тест на коэффициент на сказал бы, какой из них лучше между ZIP и ZINB, и Тест Vuong скажет вам, следует ли вам использовать модели с нулевым надуванием. θθ θ
Наконец, я не использую R, но страница примеров анализа данных IDRE в UCLA может помочь вам в подборе этих моделей.
[Редактировать другим пользователем без достаточной репутации, чтобы комментировать. В этом документе объясняется, почему не следует использовать тест Вуонга для сравнения модели с нулевой инфляцией, и предлагаются альтернативы.
П. Уилсон, «Неправильное использование теста Вуонга для не вложенных моделей для проверки на нулевую инфляцию». Letters Economics, 2015, вып. 127, выпуск C, 51-53 ]
источник
Попробуйте обобщенную линейную модель с гамма-распределением. Она может хорошо аппроксимировать вашу зависимую переменную, поскольку она положительна и равна нулю при x = 0. Я использовал R и GLM с некоторым успехом в аналогичном случае.
источник
Все статистические допущения касаются ошибок модели. Если вы построите простую модель, используя 6 рядов индикаторов, отражающих день недели ... вы начнете видеть гораздо более приятное распределение ошибок. Продолжайте включать ежемесячные эффекты и праздничные эффекты (ДО, ПО И ПОСЛЕ), и распределение ошибок станет еще приятнее. Добавление показателей «день месяца», «неделя месяца», длинных выходных и многое другое станет еще приятнее.
Посмотрите на Простой метод прогнозирования количества гостей с учетом текущих и исторических данных и /stats//search?q=user%3A3382+daily+data для более интересного чтения.
источник