У меня есть 5 переменных, и я пытаюсь предсказать мою целевую переменную, которая должна быть в диапазоне от 0 до 70.
Как я могу использовать эту информацию для лучшего моделирования моей цели?
источник
У меня есть 5 переменных, и я пытаюсь предсказать мою целевую переменную, которая должна быть в диапазоне от 0 до 70.
Как я могу использовать эту информацию для лучшего моделирования моей цели?
у
Однако ограниченный диапазон повышает вероятность нелинейной связи между зависимой переменной ( ) и независимыми переменными ( ). Некоторые дополнительные показатели этого включают в себя:
Больший разброс остаточных значений, когда находится в середине его диапазона, по сравнению с разбросом остаточных значений в обоих концах диапазона.
Теоретические причины конкретных нелинейных отношений.
Доказательство неправильной спецификации модели (получено обычными способами).
Значение квадратичных или старших членов в .
Рассмотрим нелинейное повторное выражение в случае выполнения любого из этих условий.
Есть много способов повторно выразить чтобы создать более линейные отношения с . Например, любую возрастающую функцию определенную в интервале можно «сложить», чтобы создать симметричную возрастающую функцию через . Если становится произвольно большим и отрицательным, когда его аргумент приближается к , свернутая версия отобразит во все действительные числа. Примеры таких функций включают логарифм и любую отрицательную степень. Использование логарифма эквивалентно «ссылке логита», рекомендованной @ user603. Другой способ, чтобы позволить[ 0 , 70 ] y → f ( y ) - f ( 70 - y ) f 0 f [ 0 , 70 ] G f ( y ) = G ( y / 70 )быть обратным CDF любого распределения вероятностей и определить . Использование нормального распределения дает преобразование «пробит».
Один из способов использовать семейства преобразований - это экспериментировать: попробовать вероятное преобразование, выполнить быструю регрессию преобразованного отношению к и проверить невязки: они должны казаться независимыми от предсказанных значений (гомоскедастических и некоррелированных) , Это признаки линейной связи с независимыми переменными. Также помогает, если остатки обратно преобразованных предсказанных значений имеют тенденцию быть маленькими. Это указывает, что преобразование улучшило подгонку. Чтобы противостоять эффектам выбросов, используйте надежные методы регрессии, такие как итеративно взвешенные наименьшие квадраты .
Важно учитывать, почему ваши значения ограничены в диапазоне 0-70. Например, если это число правильных ответов в тесте из 70 вопросов, то вам следует рассмотреть модели для переменных «количество успехов», таких как избыточная дисперсия биномиальной регрессии. Другие причины могут привести вас к другим решениям.
источник
Преобразование данных: измените масштаб ваших данных, чтобы они лежали в[0,1] и смоделируйте их, используя модель glm со ссылкой logit.
Редактировать: Когда вы масштабируете вектор (то есть делите все элементы по наибольшей записи), как правило, перед тем, как сделать это, проверяйте (глазные яблоки) для выбросов.
ОБНОВИТЬ
Предполагая, что у вас есть доступ к R, я бы перенес часть моделирования с надежной процедурой glm, см.glmrob() в пакете robustbase .
источник