У меня есть исследование, в котором многие результаты представлены в виде процентов, и я использую множественные линейные регрессии, чтобы оценить влияние некоторых категориальных переменных на эти результаты.
Мне было интересно, поскольку линейная регрессия предполагает, что результатом является непрерывное распределение, существуют ли методологические проблемы в применении такой модели к процентам, которые ограничены между 0 и 100?
regression
ratio
percentage
Bakaburg
источник
источник
Ответы:
Я рассмотрю вопросы, относящиеся к дискретной или постоянной возможности:
Проблема с описанием среднего
У вас ограниченный ответ. Но модель, которую вы подходите, не ограничена, и поэтому может прорваться сквозь границы; некоторые из ваших установленных значений могут быть невозможны, и предсказанные значения в конечном итоге должны быть.
Истинные отношения должны со временем становиться более плоскими, чем в середине, когда они приближаются к границам, поэтому ожидается, что они будут изгибаться каким-то образом.
Проблема с описанием дисперсии
Когда среднее значение приближается к границе, дисперсия также будет иметь тенденцию к снижению, при прочих равных условиях. Между средним и границей остается меньше места, поэтому общая изменчивость имеет тенденцию к снижению (в противном случае среднее значение будет стремиться отойти от границы с помощью точек, находящихся в среднем дальше на стороне, не близкой к границе.
(Действительно, если бы все значения населения в некоторой окрестности были точно на границе, дисперсия там была бы нулевой.)
Модель, которая имеет дело с такой границей, должна принимать во внимание такие эффекты.
Если пропорция для переменной подсчета, распространенной моделью для распределения пропорции является биномиальный GLM. Существует несколько вариантов формы отношения средней пропорции и предикторов, но наиболее распространенным будет логистический GLM (несколько других вариантов широко используются).
Если пропорция является непрерывной (например, процентное содержание сливок в молоке), существует несколько вариантов. Бета-регрессия представляется одним из наиболее распространенных вариантов. Опять же, он может использовать логистические отношения между средним и предикторами или использовать другую функциональную форму.
Смотрите также регрессия для результата (отношение или доля) между 0 и 1 .
источник
Это в точности то же самое, что и случай, когда результат находится между 0 и 1, и этот случай обычно обрабатывается с помощью обобщенной линейной модели (GLM), такой как логистическая регрессия. В Интернете есть много отличных учебников по логистической регрессии (и другим GLM), а также есть известная книга Агрести по этой теме.
Бета-регрессия является жизнеспособной, но более сложной альтернативой. Скорее всего, логистическая регрессия будет хорошо работать для вашего приложения и, как правило, ее будет легче реализовать с помощью большинства статистических программ.
Почему бы не использовать обычную регрессию наименьших квадратов? На самом деле люди, иногда под названием «линейная модель вероятности» (LPM). Наиболее очевидная причина, по которой LPM являются «плохими», заключается в том, что нет простого способа ограничить результат в определенном диапазоне, и вы можете получить прогнозы выше 1 (или 100% или любой другой конечной верхней границы) и ниже 0 (или некоторая другая нижняя граница). По той же причине прогнозы вблизи верхней границы имеют тенденцию быть слишком высокими, а прогнозы вблизи нижней границы - слишком низкими. Математическая основа линейной регрессии явно предполагает, что подобные тенденции не существуют. Как правило, нет веских причин для установки LPM вместо логистической регрессии.
Кроме того, оказывается, что все модели регрессии OLS, включая LPM, могут быть определены как особый вид GLM, и в этом контексте LPM связаны с логистической регрессией.
источник
Возможно, стоит изучить бета-регрессию (для которой, как я понимаю, существует пакет R), который, похоже, хорошо подходит для таких проблем.
http://www.jstatsoft.org/v34/i02/paper
источник