Расширение логистической регрессии для результатов в диапазоне от 0 до 1

9

У меня есть проблема регрессии, когда результаты не строго 0, 1, а скорее в диапазоне всех действительных чисел от 0 до 1, включая .Yзнак равно[0,0,12,0,31,,,,,1]

Эта проблема уже обсуждалась в этой теме , хотя мой вопрос немного отличается.

Я не могу использовать линейную регрессию по тем же причинам, что обычно используется логистическая регрессия. В линейной регрессии A) очень большие значения IV сместят прогнозируемый результат до 1 и B) результат линейной регрессии не ограничен пределами 0,1.

Глядя на эту функцию логистической стоимости из моего учебника я понимаю, что уравнение предназначено для расчета стоимость больше 0, только если и x не имеют одинаковое значение 0 или 1.

Стоимостьзнак равно-Yжурнал(час(Икс))-(1-Y)журнал(1-час(Икс))
YИкс

Можно ли использовать логистическую регрессию, изменив функцию стоимости для измерения всех ошибок гипотез?

Роберт Кубрик
источник

Ответы:

9

У вас есть несколько вариантов. Два из них могут быть:

  1. Если вы преобразуете свой помощью логистического преобразования вы можете попытаться подогнать линейную регрессию через обычные наименьшие квадраты к этой преобразованной переменной ответа.Yжурнал(Y1-Y)
  2. В качестве альтернативы, вы могли бы поместить исходную переменную в обобщенную линейную модель с логистическим преобразованием в качестве переменной ссылки и с отношением между дисперсией и иметь такое же значение, как если бы это была биномиальная переменная, подгоняемая итеративно переоцененными наименьшими квадратами. Это в основном то же самое, что «использование логистической регрессии».Y

Какой из них использовать, будет зависеть от структуры ошибок, и единственный способ решить - это подогнать их обоих и посмотреть, какая из них имеет остаточную структуру, которая наилучшим образом соответствует предположениям модели. Я подозреваю, что между ними будет не так много выбора. Безусловно, любой из этих вариантов будет большим улучшением прямой линейной регрессии с нетрансформированным по причинам, которые вы говорите.Y

Питер Эллис
источник
2
(+1) Вариант 2: Как правило, вы затем оцениваете избыточную дисперсию и используете ее для расчета стандартных ошибок - «квазибиномиальной» модели, в которой соотношение между дисперсией и средним значением Y пропорционально, а не равно биноминальная переменная.
Scortchi - Восстановить Монику
@ Scortchi: Это то, что glm()функция в R делает, когда он получает непрерывный ответ и family=quasibinomial? Т.е. он будет оценивать коэффициенты с, family=binomialа затем, на дополнительном этапе, вычислять стандартные ошибки с учетом чрезмерной дисперсии? Если да, это то же самое, что вычисление «устойчивых стандартных ошибок»? У меня есть некоторые соответствующие данные, и я попробовал обе семьи с glm; Я получаю одинаковые коэффициенты, но разные стандартные ошибки. Спасибо.
амеба
1
@amoeba: Да, это так. Но «устойчивые стандартные ошибки» обычно означают использование сэндвич-оценки или тому подобного.
Scortchi - Восстановить Монику
9

Когда Y ограничен, бета-регрессия часто имеет смысл; см. статью «Лучшая соковыжималка для лимона»

Это учитывает эффекты пола и потолка; это также позволяет моделировать дисперсию и среднее значение.

Питер Флом
источник
0

Поскольку у не строго ноль или одна (как вы сказали) стоимость всегда должна быть больше нуля. Так что я не думаю, что вам нужна модификация в модели.

метрика
источник
0

Я предлагаю две альтернативные модели:

Если ваши результаты (переменные y) упорядочены, попробуйте модель Ordered Probit.

Если ваши результаты (переменные y) не упорядочены, попробуйте модель Multinomial Logit.

сила
источник