Линейная регрессия, когда Y ограничен и дискретен

14

Вопрос прост: уместно ли использовать линейную регрессию, когда Y ограничен и дискретен (например, оценка теста 1 ~ 100, некоторое заранее определенное ранжирование 1 ~ 17)? В этом случае «нехорошо» использовать линейную регрессию или это совершенно неправильно?

Мастер Ши
источник

Ответы:

10

Когда ответ или результат Y ограничены, при подборе модели возникают различные вопросы, включая следующие:

  1. Любая модель, которая могла бы предсказать значения для ответа вне этих границ, в принципе сомнительна. Следовательно , линейная модель может быть проблематичной , так как не существует никаких границ на Y = X Ь для предикторов X и коэффициентов Ь всякий раз , когда Х сами неограниченны в одном или обоих направлениях. Тем не менее, отношения могут быть достаточно слабыми, чтобы это не кусалось, и / или прогнозы вполне могли оставаться в пределах наблюдаемого или правдоподобного диапазона предикторов. С одной стороны, если ответом является некоторое среднее значение + шум, вряд ли имеет значение, какая модель подходит.Y^=XbXbX+

  2. Так как ответ не может превышать своих границ, нелинейные отношения часто более вероятны с предсказанными ответами, привязанными к асимптотическому приближению к границам. Сигмовидные кривые или поверхности, такие как те, которые предсказаны логитными или пробитными моделями, привлекательны в этом отношении и теперь их нетрудно подобрать. Ответ, такой как грамотность (или часть, принимающая любую новую идею) часто показывает такую ​​сигмовидную кривую во времени и правдоподобно почти с любым другим предиктором.

  3. Ограниченный ответ не может иметь свойства дисперсии, ожидаемые в простой или ванильной регрессии. По мере того, как средний отклик приближается к нижней и верхней границам, дисперсия всегда приближается к нулю.

Модель должна быть выбрана в соответствии с тем, что работает, и знанием основного процесса генерации. То, знает ли клиент или аудитория о конкретных модельных семействах, также может служить ориентиром для практики

Обратите внимание, что я сознательно избегаю общих суждений, таких как хорошее / не хорошее, подходящее / не подходящее, правильное / неправильное. Все модели в лучшем случае являются приближениями, и то, какое приближение является привлекательным или достаточно хорошим для проекта, предсказать не так просто. Я обычно предпочитаю модели logit в качестве первого выбора для ограниченных ответов, но даже это предпочтение частично основано на привычке (например, на том, что я избегаю пробитные модели без особых на то причин) и частично на том, где я буду сообщать результаты, обычно читателям, которые или должен быть, статистически хорошо информирован.

Ваши примеры дискретных шкал приведены для оценок 1-100 (в заданиях, которые я отмечаю, 0, безусловно, возможно!) Или для оценок 1-17. Для таких шкал я обычно думал о подборе непрерывных моделей для ответов, масштабированных до [0, 1]. Тем не менее, есть практики, использующие модели порядковой регрессии, которые с радостью подгонят такие модели к масштабам с довольно большим количеством дискретных значений. Я рад, если они ответят, если они так настроены.

Ник Кокс
источник
8

Я работаю в сфере медицинских исследований. Мы собираем результаты, о которых сообщали пациенты, например, физические функции или симптомы депрессии, и они часто оцениваются в формате, который вы упомянули: шкала от 0 до N, полученная путем суммирования всех отдельных вопросов в шкале.

Подавляющее большинство литературы, которую я рассмотрел, только что использовало линейную модель (или иерархическую линейную модель, если данные получены из повторных наблюдений). Я еще не видел, чтобы кто-нибудь использовал предложение @ NickCox для (дробной) логит-модели, хотя это вполне правдоподобная модель.

θ

График ниже взят из моей предстоящей диссертации. Здесь я подгоняю линейную модель (красную) к балльной шкале депрессивных симптомов, которая была преобразована в Z-баллы, и (объяснительную) модель IRT синим цветом для тех же вопросов. В основном, коэффициенты для обеих моделей находятся в одном масштабе (то есть в стандартных отклонениях). На самом деле, есть существенное согласие в размере коэффициентов. Как намекал Ник, все модели ошибочны. Но линейная модель не может быть слишком неправильной в использовании.

введите описание изображения здесь

(Примечание: модель, приведенная выше, подходила для пакета usint Фила Чалмерса mirtв R. График, созданный с использованием ggplot2и ggthemes. Цветовая схема основана на стандартной цветовой схеме Stata.)

Вейвен Нг
источник
6
То, что линейные модели широко используются, не означает, что они уместны. Многие люди используют линейные модели, потому что это только то, что они знают или им удобно.
qwr
1
Медицинская литература особенно изобилует плохой практикой, пропагандируемой идеологией типа «это то, что делает эта область / журнал». Как правило, я бы не стал использовать или не использовать что-либо только из-за его внешнего вида, хотя и общего, в медицинских исследованиях.
LSC
1

Посмотрите на прогнозируемые значения и проверьте, имеют ли они примерно такое же распределение, что и исходные Ys. Если это так, линейная регрессия, вероятно, в порядке. и вы мало что выиграете, улучшив свою модель.

mzuba
источник
1

Линейная регрессия может «адекватно» описывать такие данные, но это маловероятно. Многие предположения о линейной регрессии имеют тенденцию нарушаться в данных такого типа до такой степени, что линейная регрессия становится необоснованной. Я просто выберу несколько предположений в качестве примеров,

  1. Нормальность. Даже игнорируя дискретность таких данных, такие данные имеют тенденцию демонстрировать крайние нарушения нормальности, поскольку распределения «обрезаются» границами.
  2. Гомоскедастичность - этот тип данных имеет тенденцию нарушать гомоскедастичность. Отклонения, как правило, больше, когда фактическое среднее значение находится к центру диапазона, по сравнению с краями.
  3. Линейность - Поскольку диапазон Y ограничен, предположение автоматически нарушается.

Нарушения этих допущений смягчаются, если данные имеют тенденцию падать вокруг центра диапазона, далеко от краев. Но на самом деле, линейная регрессия не является оптимальным инструментом для такого рода данных. Гораздо лучшими альтернативами могут быть биномиальная регрессия или пуассоновская регрессия.

Stat_Programmer
источник
2
Трудно понять, что регрессия Пуассона является кандидатом на получение двойственно ограниченных ответов.
Ник Кокс
0

Если ответ занимает только несколько категорий, вы можете использовать методы классификации или порядковую регрессию, если ваша переменная ответа является порядковой.

Обычная линейная регрессия не даст вам ни дискретных категорий, ни ограниченных переменных отклика. Последнее можно исправить с помощью модели логита, как в логистической регрессии. Для чего-то вроде оценки теста с 100 категориями 1-100 вы могли бы также упростить свой прогноз и использовать ограниченную переменную ответа.

qwr
источник
0

использовать cdf (накопительная функция распределения из статистики). если ваша модель y = xb + e, то измените ее на y = cdf (xb + e). Вам нужно будет изменить масштаб данных зависимых переменных, чтобы они упали между 0 и 1. Если это положительные числа, разделите их на максимум и возьмите предсказания вашей модели и умножьте на то же число. Затем проверьте соответствие и посмотрите, улучшат ли ограниченные прогнозы.

Вы, вероятно, хотите использовать постоянный алгоритм, чтобы заботиться о статистике для вас.

Дуги
источник
1
Это, кажется, смешивает два факта: (1) ограниченные ответы должны быть масштабированы от 0 до 1 для применения логита, пробита и аналогичных моделей (2) cdfs также варьируются от 0 до 1. При рассмотрении дробного ответа как такового вы не Моделирую свой cdf.
Ник Кокс