Я использую PROC GLM в SAS, чтобы соответствовать уравнению регрессии следующего вида
График QQ результирующих остатков указывает на отклонение от нормы. Любое преобразование бесполезно для нормализации остатков.
На этом этапе я могу безопасно переключиться на непараметрические методы, такие как PROC LOESS.
Я уже использовал PROC LOESS, и подгонка выглядит лучше, чем PROC GLM. Но я не очень разбираюсь в непараметрической регрессии. Я не знаю, когда выбрать непараметрическую регрессию вместо параметрической регрессии.
Может кто-то помочь мне с этим?
Я пойду дальше и добавлю еще один вопрос. Ниже приводится описание моих переменных в модели. Иногда я получаю отрицательную прогнозируемую стоимость. Это не имеет смысла. Как я могу решить эту проблему?
Ответы:
Прежде чем смотреть на QQplots of остатки, вы должны оценить качество соответствия путем построения графиков ошибок по отношению к предикторам в модели (и, возможно, также к другим переменным, которые у вас есть, которые вы не использовали). Нелинейность должна отображаться на этих графиках. Если эффект переменной действительно линейный, вы ожидаете, что график остатков по отношению к будет «горизонтальным», без видимой структуры:хx x
То есть случайный горизонтальный «шарик» точек, центрированный вокруг линии вымысла = 0.
Если эффект нелинейный, вы ожидаете увидеть некоторую кривизну на этом графике. (и, пожалуйста, игнорируйте QQplots, пока не разберетесь с нелинейностями, используя графики, как указано выше!)
Вам также следует подумать о возможных взаимодействиях (смоделированных обычно терминами продукта), то есть влияние одной переменной зависит от уровней другой (если все ваши три переменные имеют высокие значения одновременно, возможно, это показывает некоторые особенно трудные Пациент? Если так, взаимодействия могут быть необходимы).
Если вы выберете какую-нибудь нелинейную модель, после попытки взаимодействий и преобразований (пробовали
log(Cost)
ли вы?) Пробовали ли вы какие-нибудь преобразования Бокса-Кокса? Поскольку у вас множественная регрессия, я не думаю, чтоloess
это то, что вам нужно, вы должны искатьgam
(обобщенные аддитивные модели, SAS должен иметь это, в R это в пакетеmgcv
).источник
Потеря всегда будет лучше соответствовать регрессии, если только данные не лежат на прямой линии. LOESS - это локально линейное приближение, предназначенное для передачи близко к данным. Эти методы в основном исследовательские. И хотя опасно экстраполировать линейную модель за пределы соответствия, экстраполяция была бы безрассудной в случае потери.
Если ваша модель дает вам отрицательные затраты, это довольно хороший признак того, что линейная регрессия не подходит для ваших переменных. Вы говорите, что пытались преобразований. Вы взяли журнал затрат против ваших предикторов?
По своей природе маловероятно, что существует простая связь между стоимостью и переменными, которые вы упоминаете. Иногда целью линейной регрессии является просто демонстрация существования некоторой корреляции и, возможно, выбор разумного набора предикторов.
источник
Браво за остаточный анализ. Ставит вас далеко впереди типичного аналитика. (Однако ваше описание модели не позволяет описать структуру ошибок.) Вы должны рассмотреть как преобразования X, так и преобразования Y. Я понимаю, что SAS отстает от R в моделировании с подгонкой сплайнов, но я понимаю, что последние версии предложили такую возможность. Подумайте о добавлении ограниченных кубических сплайнов для терминов X Как справка, текст Фрэнка Харрелла «Стратегии регрессионного моделирования» трудно превзойти. У этого есть твердые статистические аргументы для этого подхода. Это параметрический подход, который позволяет обнаруживать структуру данных, которая в противном случае была бы пропущена.
источник
Я думаю, что kjetil дал вам несколько хороших предложений. Я бы добавил, что ненормальные остатки не означают, что вы должны перейти от линейной или нелинейной регрессии к непараметрической регрессии. Переходя к непараметрической регрессии, вы отказываетесь от структуры функциональной формы. Есть надежная альтернатива регрессии OLS, к которой вы могли бы обратиться в первую очередь. Затем обобщенные линейные модели и обобщенные аддитивные модели, если необходимы следующие шаги. Потеря должна, на мой взгляд, быть вашим последним средством. Я думаю, что я согласен с kjetil в этом.
источник