Регрессия остатков логистической регрессии на других регрессорах

9

С помощью регрессии OLS, применяемой к непрерывному отклику, можно построить уравнение множественной регрессии, последовательно выполняя регрессии остатков в каждом ковариате. У меня вопрос, есть ли способ сделать это с помощью логистической регрессии через остатки логистической регрессии ?

Pr(Y=1|x,z)xR1R1z

Бен Огорек
источник
Я предполагаю, что это не сработает по той же причине, что REML не распространяется на GLM; магия наименьших квадратов потеряна. Интересно, будет ли он работать в полностью байесовском контексте, когда вы выбираете скрытую переменную как часть сима. Я хотел сделать это потому, что мог запускать glmnet для разных классов переменных и получать различную степень регуляризации для классов - конечно, есть другие способы получить этот эффект.
Бен Огорек
Это очень похоже на использование алгоритма обратной подгонки для логистической регрессии?
usεr11852
Я упоминал об этом в комментарии ниже, но во многих реализациях вы можете передать «базовый» прогноз (параметр смещения в glmnet), так что, возможно, это будет возможно после регрессии зависимых переменных. @BenOgorek Вы хотите добавить цель в основной текст
seanv507
@ seanv507 Я беспокоюсь, что добавление в части регуляризации слишком сильно увеличит область, особенно сейчас, когда есть несколько хороших ответов ниже. После завершения вопросов и ответов я создам отдельный вопрос, где смещение действительно может быть нашим другом.
Бен Огорек
Это не ответ, но у меня недостаточно репутации, чтобы комментировать. Речь идет о регрессии остатка на другом регрессоре (т.е. предикторах ), а не о регрессии остатка на остатках . Я смущен ответами.
Т У

Ответы:

3

В стандартной множественной линейной регрессии способность подгонять оценки обыкновенных наименьших квадратов (OLS) в два этапа приходит из теоремы Фриша – Во – Ловелла . Эта теорема показывает, что оценка коэффициента для конкретного предиктора в множественной линейной модели равна оценке, полученной путем регрессии остатков ответа (остатков от регрессии переменной ответа против других объясняющих переменных) по отношению к остаткам предиктора (остаткам). от регрессии предикторной переменной к другим объясняющим переменным). Очевидно, вы ищете аналогию с этой теоремой, которая может быть использована в модели логистической регрессии.

Для этого вопроса полезно вспомнить латентно-переменную характеристику логистической регрессии :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

В этой характеристике модели переменная скрытого ответа ненаблюдаема, и вместо этого мы наблюдаем индикатор который сообщает нам, является ли скрытый ответ положительным. Эта форма модели выглядит аналогично множественной линейной регрессии, за исключением того, что мы используем немного другое распределение ошибок (логистическое распределение вместо нормального распределения), и, что более важно, мы наблюдаем только показатель, показывающий, является ли скрытый ответ положительным ,YiYi

Это создает проблему для любой попытки создать двухэтапное соответствие модели. Эта теорема Фриша-Во-Ловелла зависит от способности получать промежуточные невязки для отклика и интересующего предиктора, взятые против других объясняющих переменных. В данном случае мы можем получить невязки только из «категорированной» переменной ответа. Создание двухэтапного процесса подбора для логистической регрессии потребует от вас использования остатков ответов из этой категорированной переменной ответа без доступа к скрытому ответу. Это кажется мне серьезным препятствием, и, хотя это не доказывает невозможности, представляется маловероятным, что модель будет соответствовать двум этапам.

Ниже я дам вам отчет о том, что потребуется для нахождения двухэтапного процесса, подходящего для логистической регрессии. Я не уверен, есть ли решение этой проблемы, или есть доказательство невозможности, но материал здесь должен помочь вам понять, что требуется.


Как будет выглядеть двухэтапная логистическая регрессия? Предположим, что мы хотим построить двухступенчатое соответствие для модели логистической регрессии, где параметры оцениваются посредством оценки максимального правдоподобия на каждом шаге. Мы хотим, чтобы процесс включал промежуточный этап, который подходит для следующих двух моделей:

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

Мы оцениваем коэффициенты этих моделей (через MLE), и это дает промежуточные подгонянные значения . Затем на втором этапе мы подгоняем модель:α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

Как указано, в процедуре много фиксированных элементов, но функции плотности и на этих этапах остаются неопределенными (хотя они должны быть распределениями с нулевым средним, которые не зависят от данных). Чтобы получить двухступенчатый метод подгонки под эти ограничения, нам нужно выбрать и чтобы MLE для в этом двухступенчатом алгоритме модели был таким же, как MLE, полученный из одношаговой модели логистической регрессии. над.gfgfβZ

Чтобы увидеть, возможно ли это, мы сначала запишем все оценочные параметры из первого шага:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

Пусть чтобы функция логарифмического правдоподобия для второго шага была:ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

Мы требуем, чтобы максимальное значение этой функции было MLE модели множественной логистической регрессии. Другими словами, мы требуем:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

Я оставляю это на усмотрение других, чтобы определить, есть ли решение этой проблемы или доказательство отсутствия решения. Я подозреваю, что «категоризация» скрытой переменной ответа в логистической регрессии сделает невозможным поиск двухэтапного процесса.

Бен - Восстановить Монику
источник
1
Привет @Ben, спасибо, что рассказал мне о теореме Фриша – Во – Ловелла. Я взорвал это на награду - мысль "истек" означало, что это просто перестало рекламироваться. Прости за это. Мне нравится ваша идея, основанная на вероятности. Можете попробовать или что-то подобное и опубликовать ниже.
Бен Огорек
@ Бен Огорек: Не беспокойтесь о награде. Рад, что ответ помог.
Бен - Восстановить Монику
@ Бен Огорек: (Чтобы восполнить потерянные 25 очков щедрости, которые исчезают в эфире, просто обойдите сайт и проголосуйте за любые 3 ответа. Тогда ваша карма будет восстановлена!)
Бен - Восстановите Монику
1
Выполнено! (И я действительно прочитал их сначала).
Бен Огорек
3

Я могу неправильно истолковать вопрос. Я сомневаюсь, что вы можете построить уравнение линейной регрессии путем регрессии по остаткам, как указано в OP . Метод OP будет работать, только если предикторы не зависят друг от друга.

Чтобы заставить его работать, предположим, что - вектор результата, - матрица модели для предикторов, уже находящихся в модели, и вы хотите включить . Вам нужно регрессировать остаток регрессии на против остатка регрессии на чтобы получить коэффициент OLS для .yXx1yXx1Xx1

Вот простой пример:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

Подходит модель с OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

Регрессия на остатки:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

Это неправильно, вам нужно соответствовать:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

Возвращает правильный коэффициент для x2, это совпадает с ожидаемыми различиями в y с учетом различий в x2, сохраняя постоянную x1 (исключая его из значений y и x1).

Кроме того, в логистической регрессии это было бы даже более проблематично, поскольку коэффициенты логистической регрессии страдают от пропущенного переменного смещения даже в отсутствие смешанных отношений, см. Здесь и здесь , поэтому, если все предикторы результата не находятся в модели, невозможно получить непредвзятые оценки истинных параметров населения. Более того, я не знаю каких-либо остатков от модели, которые были бы подвержены второй логистической регрессии со всеми значениями, лежащими между 0 и 1.

Некоторые ссылки на регрессию на остатки:

  • Максвелл, SE, Делани, HD, и Манхеймер, JM (1985). Anova of Residuals и Ancova: исправление иллюзии с помощью сравнений моделей и графиков. Журнал образовательной статистики, 10 (3), 197–209. Получено с http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
  • Freckleton, RP (2002), О неправильном использовании остатков в экологии: регрессия остатков против множественной регрессии. Журнал Экологии животных, 71 , 542-545. DOI: 10,1046 / j.1365-2656.2002.00618.x
Гетероскедастичный джим
источник
Я думаю, что ваша первая пара абзацев немного вводит в заблуждение / неясно ... было бы лучше, если бы вы начали с того, как вы на самом деле делаете «линейную регрессию с остатками» .. (+ 1), и вы можете найти это в элементах статистического обучения ( множественная регрессия из подраздела однократной регрессии?)
seanv507
Во многих реализациях вы можете передать «базовый» прогноз (параметр смещения в glmnet), поэтому, возможно, это будет возможно после регрессии зависимых переменных
seanv507
@ seanv507 Я уже включил его в свой ответ. Это последняя демонстрация кода, которая у меня есть. Это просто невозможно, как описано в OP, регрессировать остатки в предикторе. Но я мог бы переписать это, чтобы показать правильный путь с самого начала, если это то, что вы имеете в виду.
Гетероскедастик Джим
Да, я имел в виду переписать его, чтобы показать правильный путь с самого начала,
seanv507
@ seanv507 не знаешь, что ты имеешь ввиду под базовым прогнозом? И регрессия зависимых переменных?
Гетероскедастик Джим
1

Надеюсь, я не ошибаюсь в вашем вопросе, поскольку мой ответ несколько изменит формулировку того, как вы сформулировали свою тему.

Я думаю, что вы пытаетесь создать регрессионную модель, добавляя по одной независимой переменной за раз. И вы делаете это, наблюдая, какая предполагаемая переменная имеет наибольшую корреляцию с остатком вашей первой регрессии между Y и X1. Таким образом, переменная с самой высокой корреляцией с этим первым остатком будет X2. Итак, теперь у вас есть модель с двумя независимыми переменными X1 и X2. И вы продолжаете этот точный процесс, чтобы выбрать X3, X4 и т. Д. Это пошаговый процесс вперед.

Вы можете сделать то же самое с Логистической Регрессией по той простой причине, что Логистическая Регрессия в значительной степени является Регрессией OLS, где зависимой переменной является журнал нечетного (или logit). Но то, является ли Y логитом или нет, не влияет на пошаговый процесс, упомянутый выше.

OLS минимизирует сумму квадратичных ошибок, чтобы соответствовать фактическим данным. В регрессии Logit используется процесс максимального правдоподобия, который генерирует соответствие, которое не сильно отличается от OLS. И это тоже (механизм подбора) не должен влиять на пошаговый процесс продвижения вперед, который позволяет вам построить модель множественной регрессии, независимо от того, является ли последняя регрессией OLS или логит-регрессией.

Sympa
источник