Моделирование, когда зависимая переменная имеет «отсечение»

12

Заранее извиняюсь, если какая-либо терминология, которую я использую, неверна. Я бы приветствовал любое исправление. Если то, что я называю «отсечкой», носит другое имя, дайте мне знать, и я смогу обновить вопрос.

Интересующая меня ситуация такова: у вас есть независимые переменные и одна зависимая переменная . Я оставлю это расплывчатым, но предположим, что было бы относительно просто получить хорошую модель регрессии для этих переменных. уxy

Однако модель, которую вы намереваетесь создать, предназначена для независимых переменных и зависимой переменной , где a - это некоторое фиксированное значение в диапазоне y . Точно так же данные, к которым у вас есть доступ, не включают y , только w .xw=min(y,a)ayyw

(Несколько нереалистичным) примером этого может быть, если вы пытаетесь смоделировать, сколько лет люди будут получать пенсию. В этом случае x может быть релевантной информацией, такой как пол, вес, количество часов занятий в неделю и т. Д. «Базовая» переменная y это ожидаемая продолжительность жизни. Однако переменная, к которой у вас будет доступ и которую вы пытаетесь предсказать, в вашей модели будет равна w=min(0,yr) где r - возраст выхода на пенсию (если для простоты он фиксирован).

Есть ли хороший подход для решения этой проблемы в регрессионном моделировании?

Бен Ааронсон
источник
1
Я не уверен, но это звучит так, как будто это может быть достигнуто через некоторые вариации анализа выживания. 1) Это включает в себя цензуру 2) По крайней мере, в вашем примере, это вовлекает время. Но это будет подвергаться цензуре слева, а не справа (что более распространено). Если вы согласны со мной, вы можете добавить тег выживания и посмотреть, прыгнет ли кто-нибудь на нем.
Питер Флом - Восстановить Монику
4
@Peter Это, конечно, выглядит для меня цензурой. С какой стороны происходит цензура, мало что значит, потому что, отрицая зависимую переменную, можно переключаться между правой и левой цензурой.
whuber
@whuber Я думаю, ты прав. Но, как вы говорите, цензура может переключаться достаточно легко.
Питер Флом - Восстановить Монику
Пример выхода на пенсию, кажется, требует модели данных подсчета (если вы хотите округлить до целых лет и до тех пор, пока все не умрут к моменту запуска анализа). Подход со скрытой переменной кажется растянутым, поскольку время не может быть отрицательным.
Дмитрий Владимирович Мастеров

Ответы:

14

Этот тип модели имеет несколько названий, в зависимости от дисциплины и тематической области. Распространенными названиями для него являются цензурированные зависимые переменные, усеченные зависимые переменные, ограниченные зависимые переменные, анализ выживания, Tobit и цензурированная регрессия. Я, вероятно, опускаю несколько других имен.

Настройка, которую вы предлагаете, где наблюдается, называется "правая цензура", потому что значения слишком далеко вправо на реальной линии подвергаются цензуре - и вместо этого мы просто видим точку цензуры, .min{yi,a}yia

Один из способов справиться с такими данными - использовать скрытые переменные (и это в основном то, что вы предлагаете). Вот один из способов продолжить:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Затем вы можете проанализировать это по максимальной вероятности. Наблюдения, в которых происходит цензура, вносят вклад в функцию правдоподобия, а наблюдения, в которых цензура не происходит, вносят вклад до функции правдоподобия. CDF стандартной нормы - а плотность стандартной нормы - . Итак, функция правдоподобия выглядит так:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Вы оцениваете и , максимизируя это. Вы получаете стандартные ошибки как обычные ошибки с максимальным правдоподобием.βσ

Как вы можете себе представить, это всего лишь один из многих подходов.

Билл
источник
1
+1 Рабочий пример решения ML доступен по адресу stats.stackexchange.com/questions/49443 .
whuber
@whuber Это хорошая экспозиция.
Билл