Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем графике показан фактический баланс против прогнозируемого (прогнозируется с помощью линейной регрессии):
А вот два графика распределения одинаковых данных:
Поскольку мои предикторы очень искажены (пользовательские данные с распределением по степенному закону), я применил преобразование Бокса-Кокса, которое изменило результаты следующим образом:
Хотя это и изменяет распределение прогнозов, эта верхняя граница все же существует. Итак, мои вопросы:
- Каковы возможные причины таких верхних границ в результатах прогнозирования?
- Как я могу исправить прогнозы, чтобы они соответствовали распределению фактических значений?
Бонус: поскольку распределение после преобразования Бокса-Кокса, похоже, следует распределению преобразованных предикторов, возможно ли, что это напрямую связано? Если да, можно ли применить преобразование, чтобы оно соответствовало фактическим значениям?
Изменить: я использовал простую линейную регрессию с 5 предикторами.
Ответы:
Ваш dep var ограничен от 0 до 1, и поэтому OLS не полностью подходит, например, я предлагаю бета-регрессию, и могут быть другие методы. Но во-вторых, после преобразования Бокса-Кокса вы говорите, что ваши прогнозы ограничены, но ваш график этого не показывает.
источник
В то время как большое внимание уделяется использованию регрессий, которые подчиняются границам 0/1, и это разумно (и важно!), Конкретный вопрос о том, почему ваш LPM не предсказывает результаты, превышающие 0,8, вызывает у меня немного другой вопрос ,
В любом случае в ваших остатках есть заметная закономерность, а именно, ваша линейная модель плохо вписывается в верхнюю часть вашего распределения. Это означает, что в правильной модели есть что-то нелинейное.
Решения, которые также учитывают границы ваших данных, равные 0/1: пробит, логит и бета-регрессия. Эта граница имеет решающее значение и должна быть решена, чтобы ваша работа была строгой, учитывая ваш относительно близкий к 1 дистрибутиву и, таким образом, большое количество ответов на эту тему.
Обычно, однако, проблема в том, что LPM превышает предел 0/1. Это не тот случай, здесь! Если вас не интересует оценка 0/1 и вы активно хотите найти решение, которое может быть снабжено (x'x) ^ - 1 (x'y), то подумайте, что, возможно, модель не является строго линейной. Подгонка модели в зависимости от x ^ 2, перекрестных произведений независимых переменных или журналов независимых переменных может помочь улучшить ваше соответствие и, возможно, улучшить объяснительную силу вашей модели, чтобы она оценивала значения, превышающие 0,8.
источник