Логистическая регрессия для мультикласса

10

Я получил модель для логистической регрессии для мультикласса, которая дается

P(Y=j|X(i))=exp(θjTX(i))1+m=1kexp(θmTX(i))

где k - число классов, тета - оцениваемый параметр, j - j-й класс, Xi - тренировочные данные.

Ну, одну вещь, которую я не понял, - почему часть знаменателя нормализовала модель. Я имею в виду, что вероятность остается между 0 и 1.

1+m=1kexp(θmTX(i))

Я имею в виду, что я привык к логистической регрессии

P(Y=1|X(i))=1/(1+exp(θTX(i)))

На самом деле, я запутался с предметом номинирования. В этом случае, поскольку это сигмовидная функция, она никогда не позволяет значению быть меньше 0 или больше 1. Но я запутался в случае мультикласса. Почему это так?

Это моя ссылка https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-Feb февраля/ 029738.html . Я думаю, что это должно было нормализовать

P(Y=j|X(i))=exp(θjTX(i))m=1kexp(θmTX(i))
user34790
источник
2
Подсказка: в логистической регрессии неявно существуют две вероятности: вероятность и вероятность . Эти вероятности должны составлять . Y = 0 1Y=1Y=01
whuber
1
Основываясь на некоторых других ваших постах, вы знаете, как разметить уравнения. Текстовые уравнения здесь трудно читать, а (подписчики?) Сбивают с толку - вы можете пометить их ? LATEX
Макро
2
Поскольку вы публикуете здесь очень много вопросов, пожалуйста, сделайте паузу и прочитайте наш FAQ о том, как задавать хорошие вопросы. Прочтите справку по разметке чтобы вы могли сделать свои уравнения удобочитаемыми. TEX
whuber
Я отредактировал уравнение. @ Whuber На самом деле, я запутался в мультиклассовой логистической регрессии, а не в бинарной. Меня беспокоит, как получится, когда я добавлю все элементы в знаменатель нормализованной вероятности
user34790
@ user34790, когда вы делите каждый член на сумму, то вероятности отдельных классов равны 1. Кстати, что такое ? X(i)
Макро

Ответы:

13

KK>2K1K

P(yi=K|xi)=1k=1K1P(yi=k|xi).
P(yi=k|xi)=exp(θiTxi)i=1Kexp(θiTxi).
KθK=(0,,0)T
i=1Kexp(θiTxi)=exp(0)+i=1K1exp(θiTxi)=1+i=1K1exp(θiTxi).
k<K
P(yi=k|xi)=exp(θiTxi)1+i=1K1exp(θiTxi)
sebp
источник
4
Учтите, что выбор эталонного класса не важен, если вы делаете максимальную вероятность. Но если вы выполняете наказуемое максимальное правдоподобие или байесовский вывод, часто бывает более полезно оставить вероятности чрезмерно параметризованными, и позволить наказанию выбрать способ обработки избыточной параметризации. Это связано с тем, что большинство штрафных функций / априоров не являются инвариантными по отношению к выбору эталонного класса
вероятностная
iik
4

kk1exp(0)kθ=0

θ1X=b

exp(b)exp(0)+exp(b)=exp(0)exp(0)+exp(b)=11+exp(b)
conjugateprior
источник