Я пытаюсь смоделировать переменную ответа, теоретически ограниченную между -225 и +225. Переменная - это общая оценка, которую субъекты получают, играя в игру. Хотя теоретически это возможно для предметов +225. Несмотря на это, потому что счет зависел не только от действий субъектов, но и от действий других действий, максимум, который набрал каждый, был 125 (это самые высокие 2 игрока, играющих друг с другом, оба могут забить), это происходило с очень высокой частотой. Самый низкий балл был +35.
Эта граница 125 вызывает трудности с линейной регрессией. Единственное, что я могу придумать, это изменить масштаб ответа от 0 до 1 и использовать бета-регрессию. Если я сделаю это, хотя я не уверен, что могу действительно оправдать утверждение, что 125 - это верхняя граница (или 1 после преобразования), поскольку можно набрать +225. Кроме того, если бы я сделал это, что бы моя нижняя граница, 35?
Спасибо,
Джонатан
источник
Ответы:
Хотя я не совсем уверен, в чем ваша проблема с линейной регрессией, я сейчас заканчиваю статью о том, как анализировать ограниченные результаты. Поскольку я не знаком с бета-регрессией, возможно, кто-то другой ответит на этот вариант.
По вашему вопросу я понимаю, что вы получаете прогнозы за пределами границ. В этом случае я бы пошел на логистическую квантильную регрессию . Квантильная регрессия - очень аккуратная альтернатива регулярной линейной регрессии. Вы можете посмотреть на различные квантили и получить гораздо более полную картину своих данных, чем это возможно при обычной линейной регрессии. Это также не имеет никаких предположений относительно распределения 1 .
Преобразование переменной часто может вызывать забавные эффекты на линейную регрессию, например, у вас есть значение в логистическом преобразовании, но это не переводит в обычное значение. Это не относится к квантилям, медиана всегда является медианой, независимо от функции преобразования. Это позволяет вам трансформироваться назад и вперед, не искажая ничего. Профессор Боттай предложил этот подход к ограниченным результатам 2 , это отличный метод, если вы хотите делать индивидуальные прогнозы, но у него есть некоторые проблемы, когда вы не хотите смотреть на бета-версии и интерпретировать их нелогистическим способом. Формула проста:
Где - ваш счет, а - произвольное небольшое число.ϵy ϵ
Вот пример, который я сделал некоторое время назад, когда хотел поэкспериментировать с ним в R:
Это дает следующий разброс данных, поскольку вы можете видеть, что он явно ограничен и неудобен :
Это приводит к следующей картине, где женщины явно находятся выше верхней границы:
Это дает следующий сюжет с похожими проблемами:
Логистическая квантильная регрессия с очень хорошим ограниченным прогнозом:
Здесь вы можете увидеть проблему с бета-версиями, которая ретрансформированным образом отличается в разных регионах (как и ожидалось):
Ссылки
Для любопытных сюжеты были созданы с использованием этого кода:
источник
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , онлайн PDF . У него есть аналогичная мотивация для моделирования распределений с эффектами пола / потолка.