Я пытаюсь использовать модель для оценки того, насколько катастрофические заболевания, такие как туберкулез, СПИД и т. Д., Влияют на расходы на госпитализацию. У меня есть «стоимость госпитализации» в качестве зависимой переменной и различные индивидуальные маркеры в качестве независимых переменных, почти все из которых являются фиктивными, такими как пол, глава семьи, статус бедности и, конечно же, фиктивные данные о том, есть ли у вас болезнь (плюс возраст и возраст в квадрате) и куча терминов взаимодействия.
Как и следовало ожидать, существует значительное количество - и я имею в виду много - данных, накопленных в ноль (т. Е. Никаких расходов на госпитализацию за 12-месячный отчетный период). Как лучше всего справляться с такими данными?
На данный момент я решил преобразовать стоимость в ln(1+cost)
так, чтобы включить все наблюдения, а затем запустить линейную модель. Я на правильном пути?
Ответы:
Как обсуждалось в другом месте на сайте, порядковая регрессия (например, пропорциональные шансы, пропорциональные опасности, пробит) является гибким и надежным подходом. Разрывы допускаются при распределении , включая экстремальные сгущения. Ничего не предполагается о распределении для одного . Модели с нулевым раздувом делают гораздо больше предположений, чем полупараметрические модели. Полное описание конкретного случая см. В моих раздаточных материалах для курса, глава 15, по адресу http://biostat.mc.vanderbilt.edu/CourseBios330 .Y Y Икс
Одним из больших преимуществ порядковых моделей для непрерывного является то, что вам не нужно знать, как преобразовывать перед анализом.Y Y
источник
Скопление в 0 называется "нулевой инфляцией". Безусловно, наиболее распространенными случаями являются модели подсчета, которые приводят к нуля-Пуассона с нулевой инфляцией и отрицательной биномиальной регрессии. Однако существуют способы моделирования нулевой инфляции с реальными положительными значениями (например, гамма-модель с нулевой инфляцией).
См. Min and Agresti, 2002, Моделирование неотрицательных данных с объединением в ноль для обзора этих методов.
источник
Предложение об использовании модели Пуассона с нулевым давлением является интересным началом. Он имеет некоторые преимущества совместного моделирования вероятности возникновения каких-либо связанных с заболеванием расходов, а также процесса определения того, какими будут эти расходы в случае заболевания. У него есть ограничение, заключающееся в том, что он налагает некоторую строгую структуру на то, какова форма результата, обусловленная наложением каких-либо затрат (например, определенным отношением средней дисперсии и положительным целочисленным результатом ... последнее может быть смягчено для некоторых цели моделирования).
Если у вас все в порядке с лечением связанных с болезнью поступлений и связанных с болезнью расходов, зависящих от процессов приема самостоятельно, вы можете расширить это, сначала смоделировав двоичный процесс из года в год. Начисляли ли вы какие-либо расходы, связанные с болезнью? Это простая модель логистической регрессии, позволяющая оценить факторы риска и распространенность. Принимая это во внимание, вы можете ограничить анализ группой лиц, которые начислили какие-либо затраты, и смоделировать процесс фактических затрат, используя множество технических моделей моделирования. Пуассон хорош, квази-Пуассон был бы лучше (учитывая небольшие неизмеренные источники ковариации в данных и отклонения от модельных допущений). Но небо это предел с моделированием непрерывного процесса затрат.
Если вам абсолютно необходимо смоделировать соотношение параметров в процессе, вы можете использовать оценки начальной загрузки SE. Я не вижу причин, почему это было бы неверно, но было бы любопытно услышать мнение других, если это может быть неправильно. В общем, я думаю, что это два отдельных вопроса, и к ним следует относиться как к обоснованным выводам.
источник