Когда использовать непараметрическую регрессию?

9

Я использую PROC GLM в SAS, чтобы соответствовать уравнению регрессии следующего вида

Y=b0+b1X1+b2X2+b3X3+b4t

График QQ результирующих остатков указывает на отклонение от нормы. Любое преобразование бесполезно для нормализации остатков.Y

На этом этапе я могу безопасно переключиться на непараметрические методы, такие как PROC LOESS.

Я уже использовал PROC LOESS, и подгонка выглядит лучше, чем PROC GLM. Но я не очень разбираюсь в непараметрической регрессии. Я не знаю, когда выбрать непараметрическую регрессию вместо параметрической регрессии.

Может кто-то помочь мне с этим?

Я пойду дальше и добавлю еще один вопрос. Ниже приводится описание моих переменных в модели. Иногда я получаю отрицательную прогнозируемую стоимость. Это не имеет смысла. Как я могу решить эту проблему?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time
Энн
источник
2
Конечно, вы можете избежать прогнозирования отрицательных затрат, смоделировав журнал:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Дирк Хорстен

Ответы:

10

Прежде чем смотреть на QQplots of остатки, вы должны оценить качество соответствия путем построения графиков ошибок по отношению к предикторам в модели (и, возможно, также к другим переменным, которые у вас есть, которые вы не использовали). Нелинейность должна отображаться на этих графиках. Если эффект переменной действительно линейный, вы ожидаете, что график остатков по отношению к будет «горизонтальным», без видимой структуры:хxx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

То есть случайный горизонтальный «шарик» точек, центрированный вокруг линии вымысла = 0.

Если эффект нелинейный, вы ожидаете увидеть некоторую кривизну на этом графике. (и, пожалуйста, игнорируйте QQplots, пока не разберетесь с нелинейностями, используя графики, как указано выше!)

Вам также следует подумать о возможных взаимодействиях (смоделированных обычно терминами продукта), то есть влияние одной переменной зависит от уровней другой (если все ваши три переменные имеют высокие значения одновременно, возможно, это показывает некоторые особенно трудные Пациент? Если так, взаимодействия могут быть необходимы).

Если вы выберете какую-нибудь нелинейную модель, после попытки взаимодействий и преобразований (пробовали log(Cost)ли вы?) Пробовали ли вы какие-нибудь преобразования Бокса-Кокса? Поскольку у вас множественная регрессия, я не думаю, что loessэто то, что вам нужно, вы должны искать gam(обобщенные аддитивные модели, SAS должен иметь это, в R это в пакете mgcv).

Къетил б Халворсен
источник
1
Спасибо за ценную информацию. Я попробовал лог (стоимость) с линейной регрессией, но это не сильно помогло. Я добавлю эффекты взаимодействия и понаблюдаю за тем, что происходит. Я также буду экспериментировать с преобразованиями снова. Я буду держать всех в курсе моих событий и результатов.
апп
6

Потеря всегда будет лучше соответствовать регрессии, если только данные не лежат на прямой линии. LOESS - это локально линейное приближение, предназначенное для передачи близко к данным. Эти методы в основном исследовательские. И хотя опасно экстраполировать линейную модель за пределы соответствия, экстраполяция была бы безрассудной в случае потери.

Если ваша модель дает вам отрицательные затраты, это довольно хороший признак того, что линейная регрессия не подходит для ваших переменных. Вы говорите, что пытались преобразований. Вы взяли журнал затрат против ваших предикторов?

По своей природе маловероятно, что существует простая связь между стоимостью и переменными, которые вы упоминаете. Иногда целью линейной регрессии является просто демонстрация существования некоторой корреляции и, возможно, выбор разумного набора предикторов.

Placidia
источник
1
Это имеет смысл, когда вы упомянули, что отрицательные затраты указывают на то, что линейная регрессия может быть неуместной Я продолжу свой анализ и добавлю некоторые взаимодействия. Спасибо.
Ann
3

Браво за остаточный анализ. Ставит вас далеко впереди типичного аналитика. (Однако ваше описание модели не позволяет описать структуру ошибок.) Вы должны рассмотреть как преобразования X, так и преобразования Y. Я понимаю, что SAS отстает от R в моделировании с подгонкой сплайнов, но я понимаю, что последние версии предложили такую ​​возможность. Подумайте о добавлении ограниченных кубических сплайнов для терминов X Как справка, текст Фрэнка Харрелла «Стратегии регрессионного моделирования» трудно превзойти. У этого есть твердые статистические аргументы для этого подхода. Это параметрический подход, который позволяет обнаруживать структуру данных, которая в противном случае была бы пропущена.

Dwin
источник
Спасибо за благодарность DWin. Я только что закончил, и это моя первая работа в качестве аналитика. По совпадению, этот вид анализа является новым для компании тоже. Итак, я просто пытаюсь провести анализ, который не является чепухой. Я приму ваше предложение и попробую преобразования как для переменных и дляЯ также пройдусь по ссылке. Я только что нашел PDF-версию онлайн. Спасибо за ваш вклад. XYX
Ann
Что-то не так с преобразованием журнала и выходами, которые интуитивно зависят линейно. Если вы смоделировали где - инъекции в правую руку, а - инъекции в левую руку, вы прогнозируете совершенно разные затраты для человека, у которого все инъекции находятся в одной руке. и кто-то, кто имеет половину из них на каждой сторонеX 1 X 2log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Дирк Хорстен
Ваш комментарий кажется довольно касательным к моему ответу (и к вопросу, так как разделение инъекций по руке никогда не упоминалось) Я надеюсь, вы не думаете, что сплайн-функции эквивалентны лог-преобразованиям. Логарифмическое преобразование Y создает модель, в которой модель мультипликативна в предикторах при преобразовании обратно в шкалу затрат. Это довольно большое изменение, и те, чьи проблемы вы не описали спрашивающему.
DWin
2

Я думаю, что kjetil дал вам несколько хороших предложений. Я бы добавил, что ненормальные остатки не означают, что вы должны перейти от линейной или нелинейной регрессии к непараметрической регрессии. Переходя к непараметрической регрессии, вы отказываетесь от структуры функциональной формы. Есть надежная альтернатива регрессии OLS, к которой вы могли бы обратиться в первую очередь. Затем обобщенные линейные модели и обобщенные аддитивные модели, если необходимы следующие шаги. Потеря должна, на мой взгляд, быть вашим последним средством. Я думаю, что я согласен с kjetil в этом.

Майкл Р. Черник
источник