Когда ответ или результат Y ограничены, при подборе модели возникают различные вопросы, включая следующие:
Любая модель, которая могла бы предсказать значения для ответа вне этих границ, в принципе сомнительна. Следовательно , линейная модель может быть проблематичной , так как не существует никаких границ на Y = X Ь для предикторов X и коэффициентов Ь всякий раз , когда Х сами неограниченны в одном или обоих направлениях. Тем не менее, отношения могут быть достаточно слабыми, чтобы это не кусалось, и / или прогнозы вполне могли оставаться в пределах наблюдаемого или правдоподобного диапазона предикторов. С одной стороны, если ответом является некоторое среднее значение + шум, вряд ли имеет значение, какая модель подходит.Y^=XbXbX+
Так как ответ не может превышать своих границ, нелинейные отношения часто более вероятны с предсказанными ответами, привязанными к асимптотическому приближению к границам. Сигмовидные кривые или поверхности, такие как те, которые предсказаны логитными или пробитными моделями, привлекательны в этом отношении и теперь их нетрудно подобрать. Ответ, такой как грамотность (или часть, принимающая любую новую идею) часто показывает такую сигмовидную кривую во времени и правдоподобно почти с любым другим предиктором.
Ограниченный ответ не может иметь свойства дисперсии, ожидаемые в простой или ванильной регрессии. По мере того, как средний отклик приближается к нижней и верхней границам, дисперсия всегда приближается к нулю.
Модель должна быть выбрана в соответствии с тем, что работает, и знанием основного процесса генерации. То, знает ли клиент или аудитория о конкретных модельных семействах, также может служить ориентиром для практики
Обратите внимание, что я сознательно избегаю общих суждений, таких как хорошее / не хорошее, подходящее / не подходящее, правильное / неправильное. Все модели в лучшем случае являются приближениями, и то, какое приближение является привлекательным или достаточно хорошим для проекта, предсказать не так просто. Я обычно предпочитаю модели logit в качестве первого выбора для ограниченных ответов, но даже это предпочтение частично основано на привычке (например, на том, что я избегаю пробитные модели без особых на то причин) и частично на том, где я буду сообщать результаты, обычно читателям, которые или должен быть, статистически хорошо информирован.
Ваши примеры дискретных шкал приведены для оценок 1-100 (в заданиях, которые я отмечаю, 0, безусловно, возможно!) Или для оценок 1-17. Для таких шкал я обычно думал о подборе непрерывных моделей для ответов, масштабированных до [0, 1]. Тем не менее, есть практики, использующие модели порядковой регрессии, которые с радостью подгонят такие модели к масштабам с довольно большим количеством дискретных значений. Я рад, если они ответят, если они так настроены.
Посмотрите на прогнозируемые значения и проверьте, имеют ли они примерно такое же распределение, что и исходные Ys. Если это так, линейная регрессия, вероятно, в порядке. и вы мало что выиграете, улучшив свою модель.
источник
Линейная регрессия может «адекватно» описывать такие данные, но это маловероятно. Многие предположения о линейной регрессии имеют тенденцию нарушаться в данных такого типа до такой степени, что линейная регрессия становится необоснованной. Я просто выберу несколько предположений в качестве примеров,
Нарушения этих допущений смягчаются, если данные имеют тенденцию падать вокруг центра диапазона, далеко от краев. Но на самом деле, линейная регрессия не является оптимальным инструментом для такого рода данных. Гораздо лучшими альтернативами могут быть биномиальная регрессия или пуассоновская регрессия.
источник
Если ответ занимает только несколько категорий, вы можете использовать методы классификации или порядковую регрессию, если ваша переменная ответа является порядковой.
Обычная линейная регрессия не даст вам ни дискретных категорий, ни ограниченных переменных отклика. Последнее можно исправить с помощью модели логита, как в логистической регрессии. Для чего-то вроде оценки теста с 100 категориями 1-100 вы могли бы также упростить свой прогноз и использовать ограниченную переменную ответа.
источник
использовать cdf (накопительная функция распределения из статистики). если ваша модель y = xb + e, то измените ее на y = cdf (xb + e). Вам нужно будет изменить масштаб данных зависимых переменных, чтобы они упали между 0 и 1. Если это положительные числа, разделите их на максимум и возьмите предсказания вашей модели и умножьте на то же число. Затем проверьте соответствие и посмотрите, улучшат ли ограниченные прогнозы.
Вы, вероятно, хотите использовать постоянный алгоритм, чтобы заботиться о статистике для вас.
источник