Регрессия с искаженными данными

11

Попытка рассчитать количество посещений из демографии и обслуживания. Данные очень искажены.

Гистограммы:

гистограмм

qq графики (слева - лог):

qq plots - право это лог

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityи serviceявляются факторными переменными.

Я получаю низкое значение p *** для всех переменных, но я также получаю низкий r-квадрат 0,05. Что я должен делать? Будет ли работать другая модель, например, экспоненциальная или как?

pxxd
источник
Поскольку то, что я изначально считал высокой частотой нулей, на самом деле было высокой частотой двух, не могли бы вы рассказать нам немного больше о процессе генерации данных? Какого рода услуги люди получали, и какова «конечная цель» анализа? Пытаетесь ли вы предсказать количество (количество) посещений, учитывая набор характеристик (то есть как показатель качества обслуживания)? Вам абсолютно необходимо сохранить результат в качестве значения для ответа на ваш вопрос исследования, или вы можете свернуть переменную результата в меньшее, но большее количество категорий?
Маркиз де Карабас
2
У вас есть данные подсчета. Поиск этого сайта для регрессии Пуассона.
kjetil b halvorsen

Ответы:

10

Линейная регрессия не является правильным выбором для вашего результата, учитывая:

  1. Переменная результата обычно не распределяется
  2. Выходная переменная ограничена в значениях, которые она может принимать (данные подсчета означают, что предсказанные значения не могут быть отрицательными)
  3. Что, по-видимому, является высокой частотой случаев с 0 посещениями

Модели с ограниченными зависимыми переменными для подсчета данных

Стратегия оценки, которую вы можете выбрать, продиктована «структурой» вашей конечной переменной. То есть, если ваша переменная результата ограничена в значениях, которые она может принять (т.е. если это ограниченная зависимая переменная ), вам нужно выбрать модель, в которой прогнозируемые значения будут находиться в пределах возможного диапазона для вашего результата. Хотя иногда линейная регрессия является хорошим приближением для ограниченных зависимых переменных (например, в случае двоичного логита / пробита), часто это не так. Введите обобщенные линейные модели . В вашем случае, поскольку итоговой переменной являются данные подсчета, у вас есть несколько вариантов:

  1. Модель Пуассона
  2. Отрицательная биноминальная модель
  3. Модель с нулевым надувом Пуассона (ZIP)
  4. Модель с нулевым накачанным отрицательным биномиалом (ZINB)

Выбор обычно определяется опытным путем. Я кратко расскажу о выборе между этими вариантами ниже.


Пуассон против отрицательного бинома

В общем, Пуассон - это модель «общей рабочей лошадки» из четырех моделей данных, о которых я упоминал выше. Ограничением модели является предположение, что условная дисперсия = условное среднее, что не всегда может быть правдой. Если ваша модель имеет чрезмерный разброс (условная дисперсия> условное среднее), вам нужно будет использовать модель отрицательной биномиальной модели. К счастью, когда вы запускаете отрицательный бином, вывод обычно включает статистический тест для параметра дисперсии (R называет этот параметр дисперсии «theta ( )», который в других пакетах называется «альфа»). Нулевая гипотеза в выборе между пуассоновским и отрицательным биномом: , а альтернативная гипотеза .θH0:θ=0H1:θ0θ является значительным, в модели есть признаки чрезмерного рассеяния, и вы бы выбрали Negative Binomial вместо Poisson. Если коэффициент не является статистически значимым, представьте результаты Пуассона.

ZIP против ZINB

Одним из возможных осложнений является нулевая инфляция, которая может быть проблемой здесь. Вот где приходят модели с нулевым раздувом ZIP и ZINB. Используя эти модели, вы предполагаете, что процесс, генерирующий нулевые значения, отделен от процесса, генерирующего другие ненулевые значения. Как и прежде, ZINB подходит, когда результат имеет чрезмерные нули и имеет избыточную дисперсию, в то время как ZIP подходит, когда результат имеет чрезмерные нули, но условное среднее = условная дисперсия. Для моделей с нулевым раздувом, в дополнение к ковариатам моделей, которые вы перечислили выше, вам нужно будет подумать о переменных, которые могли генерировать избыточные нули, которые вы видели в результате. Опять же, есть статистические тесты, которые поставляются с выходными данными этих моделей (иногда вам может потребоваться указать их при выполнении команды), которые позволят вамэмпирически решить, какая модель является лучшей для ваших данных. Интересны два теста: первый - это тест коэффициента параметра дисперсии а второй - так называемый тест Вуонга, который сообщает вам, генерируются ли избыточные нули отдельным процессом (т. Е. действительно, нулевая инфляция в результате).θ

Сравнивая выбор между ZIP и ZINB, вы снова посмотрите на тест параметра дисперсии . Опять же, (лучше подходит ZIP) и (лучше подходит ZINB). Тест Vuong позволяет вам принять решение между Пуассоном против ZIP или NB против ZINB. Для теста Вуонга, (Пуассон / NB лучше подходит) и (ZIP / ZINB лучше подходит).θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processг е г O е S I S A R E сек у л т O F а ы е р а г а т е р г O гр е с ыH1:Excess zeroes is a result of a separate process


Другие пользователи могут комментировать «обычный» рабочий процесс, но мой подход заключается в визуализации данных и переходе оттуда. В вашем случае, я бы, вероятно, начал с ZINB и запустил как тест на коэффициент на и тест Вуонга, так как это тест на коэффициент на сказал бы, какой из них лучше между ZIP и ZINB, и Тест Vuong скажет вам, следует ли вам использовать модели с нулевым надуванием. θθθ

Наконец, я не использую R, но страница примеров анализа данных IDRE в UCLA может помочь вам в подборе этих моделей.

[Редактировать другим пользователем без достаточной репутации, чтобы комментировать. В этом документе объясняется, почему не следует использовать тест Вуонга для сравнения модели с нулевой инфляцией, и предлагаются альтернативы.

П. Уилсон, «Неправильное использование теста Вуонга для не вложенных моделей для проверки на нулевую инфляцию». Letters Economics, 2015, вып. 127, выпуск C, 51-53 ]

Маркиз де Карабас
источник
большинство - 2 посещения. Все записи более чем за 1 посещение
pxxd
Я получаю похожие графики qq для glm Пуассона и гаммы, это нормально?
pxxd
3
1. Выходная переменная обычно не распределяется и сама по себе не является действительным аргументом против линейной регрессии. Набор регрессионных допущений, гарантирующих хорошие свойства оценки (такие как согласованность и асимптотическая нормальность), не включает в себя нормальность исходной переменной (и даже не нормальность ошибок).
Ричард Харди
2

Попробуйте обобщенную линейную модель с гамма-распределением. Она может хорошо аппроксимировать вашу зависимую переменную, поскольку она положительна и равна нулю при x = 0. Я использовал R и GLM с некоторым успехом в аналогичном случае.

Диего
источник
использовать там журнал посещений или журнал ссылок? glm (d возраст + d $ пол + город + мдк, семья = гамма (ссылка = журнал)) я получаю аналогичный сюжет qqVisits d
pxxd
1
Нет, я считаю, что вы должны использовать не ссылку на журнал, а ссылку на личность. Но сначала проверьте, насколько хорошо гамма-функция соответствует вашему распределению.
Диего
0

Все статистические допущения касаются ошибок модели. Если вы построите простую модель, используя 6 рядов индикаторов, отражающих день недели ... вы начнете видеть гораздо более приятное распределение ошибок. Продолжайте включать ежемесячные эффекты и праздничные эффекты (ДО, ПО И ПОСЛЕ), и распределение ошибок станет еще приятнее. Добавление показателей «день месяца», «неделя месяца», длинных выходных и многое другое станет еще приятнее.

Посмотрите на Простой метод прогнозирования количества гостей с учетом текущих и исторических данных и /stats//search?q=user%3A3382+daily+data для более интересного чтения.

IrishStat
источник
1
Этот ответ, похоже, не касается фактически заданного вопроса. Не могли бы вы сделать соединение явным?
whuber
Я взял его DVISITS, чтобы предложить ежедневные данные ... если это не так, то я отменяю свой ответ. Если это действительно поперечное сечение ... тогда, возможно, ему следует рассмотреть возможность стратификации данных по основным классификациям.
IrishStat