С помощью регрессии OLS, применяемой к непрерывному отклику, можно построить уравнение множественной регрессии, последовательно выполняя регрессии остатков в каждом ковариате. У меня вопрос, есть ли способ сделать это с помощью логистической регрессии через остатки логистической регрессии ?
regression
logistic
residuals
Бен Огорек
источник
источник
Ответы:
В стандартной множественной линейной регрессии способность подгонять оценки обыкновенных наименьших квадратов (OLS) в два этапа приходит из теоремы Фриша – Во – Ловелла . Эта теорема показывает, что оценка коэффициента для конкретного предиктора в множественной линейной модели равна оценке, полученной путем регрессии остатков ответа (остатков от регрессии переменной ответа против других объясняющих переменных) по отношению к остаткам предиктора (остаткам). от регрессии предикторной переменной к другим объясняющим переменным). Очевидно, вы ищете аналогию с этой теоремой, которая может быть использована в модели логистической регрессии.
Для этого вопроса полезно вспомнить латентно-переменную характеристику логистической регрессии :
В этой характеристике модели переменная скрытого ответа ненаблюдаема, и вместо этого мы наблюдаем индикатор который сообщает нам, является ли скрытый ответ положительным. Эта форма модели выглядит аналогично множественной линейной регрессии, за исключением того, что мы используем немного другое распределение ошибок (логистическое распределение вместо нормального распределения), и, что более важно, мы наблюдаем только показатель, показывающий, является ли скрытый ответ положительным ,Y∗i Yi
Это создает проблему для любой попытки создать двухэтапное соответствие модели. Эта теорема Фриша-Во-Ловелла зависит от способности получать промежуточные невязки для отклика и интересующего предиктора, взятые против других объясняющих переменных. В данном случае мы можем получить невязки только из «категорированной» переменной ответа. Создание двухэтапного процесса подбора для логистической регрессии потребует от вас использования остатков ответов из этой категорированной переменной ответа без доступа к скрытому ответу. Это кажется мне серьезным препятствием, и, хотя это не доказывает невозможности, представляется маловероятным, что модель будет соответствовать двум этапам.
Ниже я дам вам отчет о том, что потребуется для нахождения двухэтапного процесса, подходящего для логистической регрессии. Я не уверен, есть ли решение этой проблемы, или есть доказательство невозможности, но материал здесь должен помочь вам понять, что требуется.
Как будет выглядеть двухэтапная логистическая регрессия? Предположим, что мы хотим построить двухступенчатое соответствие для модели логистической регрессии, где параметры оцениваются посредством оценки максимального правдоподобия на каждом шаге. Мы хотим, чтобы процесс включал промежуточный этап, который подходит для следующих двух моделей:
Мы оцениваем коэффициенты этих моделей (через MLE), и это дает промежуточные подгонянные значения . Затем на втором этапе мы подгоняем модель:α^0,α^X,γ^0,γ^X
Как указано, в процедуре много фиксированных элементов, но функции плотности и на этих этапах остаются неопределенными (хотя они должны быть распределениями с нулевым средним, которые не зависят от данных). Чтобы получить двухступенчатый метод подгонки под эти ограничения, нам нужно выбрать и чтобы MLE для в этом двухступенчатом алгоритме модели был таким же, как MLE, полученный из одношаговой модели логистической регрессии. над.g f g f βZ
Чтобы увидеть, возможно ли это, мы сначала запишем все оценочные параметры из первого шага:
Пусть чтобы функция логарифмического правдоподобия для второго шага была:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Мы требуем, чтобы максимальное значение этой функции было MLE модели множественной логистической регрессии. Другими словами, мы требуем:
Я оставляю это на усмотрение других, чтобы определить, есть ли решение этой проблемы или доказательство отсутствия решения. Я подозреваю, что «категоризация» скрытой переменной ответа в логистической регрессии сделает невозможным поиск двухэтапного процесса.
источник
Я могу неправильно истолковать вопрос. Я сомневаюсь, что вы можете построить уравнение линейной регрессии путем регрессии по остаткам, как указано в OP . Метод OP будет работать, только если предикторы не зависят друг от друга.
Чтобы заставить его работать, предположим, что - вектор результата, - матрица модели для предикторов, уже находящихся в модели, и вы хотите включить . Вам нужно регрессировать остаток регрессии на против остатка регрессии на чтобы получить коэффициент OLS для .y X x1 y X x1 X x1
Вот простой пример:
Подходит модель с OLS:
Регрессия на остатки:
Это неправильно, вам нужно соответствовать:
Возвращает правильный коэффициент для x2, это совпадает с ожидаемыми различиями в y с учетом различий в x2, сохраняя постоянную x1 (исключая его из значений y и x1).
Кроме того, в логистической регрессии это было бы даже более проблематично, поскольку коэффициенты логистической регрессии страдают от пропущенного переменного смещения даже в отсутствие смешанных отношений, см. Здесь и здесь , поэтому, если все предикторы результата не находятся в модели, невозможно получить непредвзятые оценки истинных параметров населения. Более того, я не знаю каких-либо остатков от модели, которые были бы подвержены второй логистической регрессии со всеми значениями, лежащими между 0 и 1.
Некоторые ссылки на регрессию на остатки:
источник
Надеюсь, я не ошибаюсь в вашем вопросе, поскольку мой ответ несколько изменит формулировку того, как вы сформулировали свою тему.
Я думаю, что вы пытаетесь создать регрессионную модель, добавляя по одной независимой переменной за раз. И вы делаете это, наблюдая, какая предполагаемая переменная имеет наибольшую корреляцию с остатком вашей первой регрессии между Y и X1. Таким образом, переменная с самой высокой корреляцией с этим первым остатком будет X2. Итак, теперь у вас есть модель с двумя независимыми переменными X1 и X2. И вы продолжаете этот точный процесс, чтобы выбрать X3, X4 и т. Д. Это пошаговый процесс вперед.
Вы можете сделать то же самое с Логистической Регрессией по той простой причине, что Логистическая Регрессия в значительной степени является Регрессией OLS, где зависимой переменной является журнал нечетного (или logit). Но то, является ли Y логитом или нет, не влияет на пошаговый процесс, упомянутый выше.
OLS минимизирует сумму квадратичных ошибок, чтобы соответствовать фактическим данным. В регрессии Logit используется процесс максимального правдоподобия, который генерирует соответствие, которое не сильно отличается от OLS. И это тоже (механизм подбора) не должен влиять на пошаговый процесс продвижения вперед, который позволяет вам построить модель множественной регрессии, независимо от того, является ли последняя регрессией OLS или логит-регрессией.
источник