Заранее извиняюсь, если какая-либо терминология, которую я использую, неверна. Я бы приветствовал любое исправление. Если то, что я называю «отсечкой», носит другое имя, дайте мне знать, и я смогу обновить вопрос.
Интересующая меня ситуация такова: у вас есть независимые переменные и одна зависимая переменная . Я оставлю это расплывчатым, но предположим, что было бы относительно просто получить хорошую модель регрессии для этих переменных. у
Однако модель, которую вы намереваетесь создать, предназначена для независимых переменных и зависимой переменной , где a - это некоторое фиксированное значение в диапазоне y . Точно так же данные, к которым у вас есть доступ, не включают y , только w .
(Несколько нереалистичным) примером этого может быть, если вы пытаетесь смоделировать, сколько лет люди будут получать пенсию. В этом случае может быть релевантной информацией, такой как пол, вес, количество часов занятий в неделю и т. Д. «Базовая» переменная это ожидаемая продолжительность жизни. Однако переменная, к которой у вас будет доступ и которую вы пытаетесь предсказать, в вашей модели будет равна где r - возраст выхода на пенсию (если для простоты он фиксирован).
Есть ли хороший подход для решения этой проблемы в регрессионном моделировании?
источник
Ответы:
Этот тип модели имеет несколько названий, в зависимости от дисциплины и тематической области. Распространенными названиями для него являются цензурированные зависимые переменные, усеченные зависимые переменные, ограниченные зависимые переменные, анализ выживания, Tobit и цензурированная регрессия. Я, вероятно, опускаю несколько других имен.
Настройка, которую вы предлагаете, где наблюдается, называется "правая цензура", потому что значения слишком далеко вправо на реальной линии подвергаются цензуре - и вместо этого мы просто видим точку цензуры, .min{yi,a} yi a
Один из способов справиться с такими данными - использовать скрытые переменные (и это в основном то, что вы предлагаете). Вот один из способов продолжить:
Затем вы можете проанализировать это по максимальной вероятности. Наблюдения, в которых происходит цензура, вносят вклад в функцию правдоподобия, а наблюдения, в которых цензура не происходит, вносят вклад до функции правдоподобия. CDF стандартной нормы - а плотность стандартной нормы - . Итак, функция правдоподобия выглядит так:P{yi>a}=Φ(1σx′iβ−a) 1σϕ((yi−x′iβ)/σ) Φ ϕ
Вы оцениваете и , максимизируя это. Вы получаете стандартные ошибки как обычные ошибки с максимальным правдоподобием.β σ
Как вы можете себе представить, это всего лишь один из многих подходов.
источник