Когда логистическая регрессия решается в закрытом виде?

31

Возьмем и и предположим, что мы смоделировали задачу прогнозирования y для данного x с использованием логистической регрессии. Когда коэффициенты логистической регрессии могут быть записаны в закрытом виде? y { 0 , 1 }Икс{0,1}dY{0,1}

Один пример - когда мы используем насыщенную модель.

То есть определите , где индексы устанавливаются в наборе , а возвращает 1, если все переменные в -м наборе равны 1 и 0 в противном случае. Затем вы можете выразить каждое в этой модели логистической регрессии как логарифм рациональной функции статистики данных.i { x 1 , , x d } f i i w iп(Y|Икс)αехр(Σявесяея(Икся))я{Икс1,...,Иксd}еяявеся

Есть ли другие интересные примеры, когда существует закрытая форма?

Ярослав Булатов
источник
4
Я предполагаю, что вы имеете в виду "когда MLE параметров в закрытом виде?"
Glen_b
Можете ли вы дать более подробную информацию о том, что вы сделали? Ваш вопрос звучит так, как будто вы пытались вывести обычную оценку наименьших квадратов для задачи логистической регрессии?
Момо
1
Спасибо за интересный пост / вопрос, Ярослав. У вас есть ссылка на пример, который вы показываете?
Побитовое
1
Это было какое-то время, но, возможно, это было в книге Лауритцена "Графические модели". Более широкие основания для ответа на этот вопрос заключаются в том, что вы получаете решение в закрытой форме, когда (гипер) граф, образованный достаточной статистикой, является хордовым
Ярослав Булатов
Это может быть интересно tandfonline.com/doi/abs/10.1080/… Я считаю, что это особый случай аналитического решения, когда у вас есть только таблица 2х2
Остин

Ответы:

33

Как указывал kjetil b halvorsen, по-своему чудом является то, что линейная регрессия допускает аналитическое решение. И это только в силу линейности задачи (по параметрам). В OLS у вас есть который имеет условия первого порядка Для проблемы с переменные (в том числе постоянные, если необходимо - есть и регрессия через проблемы происхождения), это система с уравнениями и неизвестными. Самое главное, что это линейная система, поэтому вы можете найти решение, используя стандартную теорию и практику линейной алгебры.-2 i (yi-xi β)xi=0ppp

Σя(Yя-Икся'β)2минβ,
-2Σя(Yя-Икся'β)Иксязнак равно0
ппп, Эта система будет иметь решение с вероятностью 1, если у вас нет идеально коллинеарных переменных.

Теперь, с логистической регрессией, все уже не так просто. Записать логарифмическую функцию правдоподобия: и, взяв его производную для нахождения MLE, получим Параметры вводят это очень нелинейным образом: для каждого есть нелинейная функция, и они складываются вместе. Аналитического решения не существует (кроме, вероятно, в тривиальной ситуации с двумя наблюдениями или чем-то в этом роде), и вы должны использоватьl

L(Y;Икс,β)знак равноΣяYяперпя+(1-Yя)пер(1-пя),пязнак равно(1+ехр(-θя))-1,θязнак равноИкся'β,
Lβ'знак равноΣяdпяdθ(Yяпя-1-Yя1-пя)Иксязнак равноΣя[Yя-11+ехр(Икся'β)]Икся
βяметоды нелинейной оптимизации для нахождения оценок .β^

Несколько более глубокий взгляд на проблему (с учетом второй производной) показывает, что это является выпуклой оптимизационной задачей поиска максимума вогнутой функции (прославленной многомерной параболы), поэтому любая из них существует, и любой разумный алгоритм должен находить ее достаточно быстро, или вещи уносятся в бесконечность. Последнее действительно случается с логистической регрессией, когда для некоторого , т. вас есть идеальный прогноз. Это довольно неприятный артефакт: вы можете подумать, что когда у вас есть идеальный прогноз, модель работает отлично, но, как ни странно, все наоборот.проб[Yязнак равно1|Икся'β>с]знак равно1с

Stask
источник
вопрос в том, почему ваше последнее уравнение не разрешимо. это из-за обратного расхождения логистической функции в 0 и 1, или это из-за нелинейности в целом?
Eyalr
5
(+1) Что касается последнего пункта: С математической точки зрения это делает работу «отлично» в том смысле , что ОМП будет давать идеальную разделяющую гиперплоскость. Будет ли ваш числовой алгоритм вести себя разумно в этих обстоятельствах - это отдельный вопрос. Сглаживание Лапласа часто используется в таких ситуациях.
кардинал
@eyaler, я бы сказал, что это связано с нелинейностью в целом. Насколько я понимаю, существует ограниченный набор обстоятельств, когда это можно решить, хотя я не знаю, каковы эти обстоятельства.
StasK
1
Я не понимаю, какое математическое условие присутствует, что делает систему не имеющей решения в закрытой форме? Есть ли общее условие, когда вещи вообще не имеют закрытых решений?
Чарли Паркер
разве тот факт, что логистическая регрессия не имеет замкнутой формы, может быть доказан с помощью итераций градиентного спуска?
Чарли Паркер
8

Этот пост изначально задумывался как длинный комментарий, а не полный ответ на поставленный вопрос.

Из этого вопроса немного неясно, заключается ли интерес только в двоичном случае или, возможно, в более общих случаях, когда они могут быть непрерывными или принимать другие дискретные значения.

Один пример, который не совсем отвечает на вопрос, но имеет отношение и который мне нравится, касается ранжирования предпочтений предметов, полученного посредством парных сравнений. Модель Брэдли – Терри может быть выражена как логистическая регрессия, где а - это «сходство», «популярность», или параметр «сила» элемента с указывающим, что элемент предпочтительнее элемента в парном сравнении.α i i Y i j = 1 i j

LогяT(Pr(YяJзнак равно1))знак равноαя-αJ,
αяяYяJзнак равно1яJ

Если выполняется полный цикл сравнений (т. Е. Для каждой неупорядоченной пары записано попарное предпочтение ), то оказывается, что порядок ранга MLEs соответствует ранжирование , общее количество раз, когда один объект был предпочтительнее другого.α я S я = Σ J я Y я J(я,J)α^яSязнак равноΣJiYiJ

Чтобы интерпретировать это, представьте полный турнир по круговому турниру в вашем любимом соревновательном виде спорта. Затем этот результат говорит о том, что модель Брэдли – Терри ранжирует игроков / команды в соответствии с их процентом побед. Полагаю, будет ли это обнадеживающим или неутешительным результатом, зависит от вашей точки зрения.

NB. Этот результат упорядочения рангов не имеет места, в общем случае, когда полный циклический перебор не разыгрывается.

кардинальный
источник
2
Я был заинтересован в двоичном, потому что это было проще всего анализировать. Я нашел очень широкое достаточное условие в работах Лауритцена - вы получите замкнутую форму, если соответствующая логлинейная модель разложима
Ярослав Булатов