Какова связь между регрессией и линейным дискриминантным анализом (LDA)?

24

Существует ли связь между регрессией и линейным дискриминантным анализом (LDA)? Каковы их сходства и различия? Имеет ли какое-то значение, если есть два класса или более двух классов?

zca0
источник
3
Примечание для читателя: вопрос неоднозначный, его можно понимать как вопрос о логистической регрессии или о линейной регрессии . ФП, похоже, интересовался обоими аспектами (см. Комментарии). Принятый ответ о линейной регрессии, но некоторые другие ответы сосредоточены на логистической регрессии.
говорит амеба, восстанови Монику

Ответы:

20

Я так понимаю, что речь идет о LDA и линейной (не логистической) регрессии.

Существует значительная и значимая связь между линейной регрессией и линейным дискриминантным анализом . В случае, если зависимая переменная (DV) состоит только из 2 групп, два анализа фактически идентичны. Несмотря на то, что вычисления различны и результаты - коэффициенты регрессии и дискриминанта - не одинаковы, они точно пропорциональны друг другу.

Теперь о ситуации более двух групп. Во-первых, позвольте нам утверждать, что LDA (его извлечение, а не стадия классификации) эквивалентно (линейно связанные результаты) каноническому корреляционному анализу, если вы превращаете группировку DV в набор фиктивных переменных (с одним исключенным из них излишним) и делаете канонический анализ с наборами "IVs" и "чайников". Канонические различия на стороне набора «IV», которые вы получаете, - это то, что LDA называет «дискриминантными функциями» или «дискриминантами».

Итак, как же канонический анализ связан с линейной регрессией? Канонический анализ по сути является МАНОВОЙ (в смысле «многомерная множественная линейная регрессия» или «многомерная общая линейная модель»), углубленная в латентную структуруотношений между DV и IV. Эти две вариации разлагаются в своих взаимосвязях на скрытые "канонические вариации". Давайте возьмем самый простой пример: Y против X1 X2 X3. Максимизация корреляции между двумя сторонами - это линейная регрессия (если вы предсказываете Y по X), или - что то же самое - это MANOVA (если вы предсказываете X по Y). Корреляция одномерна (с величиной R ^ 2 = след Пиллаи), потому что меньшее множество, Y, состоит только из одной переменной. Теперь давайте возьмем эти два набора: Y1 Y2 против X1 x2 x3. Максимальная корреляция здесь является 2-мерной, потому что меньший набор содержит 2 переменные. Первое и более сильное скрытое измерение корреляции называется 1-й канонической корреляцией, а оставшаяся часть, ортогональная ей, 2-й канонической корреляцией. Так, MANOVA (или линейная регрессия) просто спрашивает, каковы частичные роли (коэффициенты) переменных во всей двумерной корреляции множеств; в то время как канонический анализ просто идет ниже, чтобы спросить, каковы частичные роли переменных в 1-м корреляционном измерении и во 2-м.

Таким образом, канонический корреляционный анализ представляет собой многомерную линейную регрессию, углубленную в скрытую структуру взаимоотношений между DV и IV. Дискриминантный анализ является частным случаем канонического корреляционного анализа ( смотрите, как именно ). Итак, здесь был ответ об отношении LDA к линейной регрессии в общем случае более двух групп.

Обратите внимание, что мой ответ совсем не рассматривает LDA как метод классификации. Я обсуждал LDA только как метод извлечения латентов. Классификация является вторым и отдельным этапом LDA (я описал это здесь ). @ Майкл Черник сосредоточился на этом в своих ответах.

ttnphns
источник
Зачем мне нужен «канонический корреляционный анализ» и что он здесь делает? Спасибо.
zca0
1
+1 (давно). Известны ли вам какие-либо ссылки, в которых обсуждается (с некоторыми подробностями) эта связь между MANOVA / CCA / регрессией между X и матрицей групповых манекенов Y и LDA (для общего случая более двух групп)? Сейчас я изучаю эту тему и думаю, что уже более или менее понял это, но когда я ищу что- regression formulation of LDAто, на удивление трудно что-то найти - после 2000 года было опубликовано несколько научных работ, в которых говорится, что такой формулировки не существует или пытаясь предложить один. Возможно, есть хорошая [старая] ссылка?
говорит амеба, восстанови Монику
3
Ммм .. Просто пара статей, приходящих на ум быстро Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling, Olcay Kursun et al. Canonical correlation analysis using within-class coupling, Если вы не можете найти их в интернете, я могу отправить вам. Если вы найдете больше и лучшие источники - пожалуйста, сообщите нам.
ttnphns
1
Мой отрывок вовсе не подразумевал, что вы можете получить коэффициенты CCA, имея под рукой только результаты регрессии (MANOVA). Я говорил, что MANOVA - это «поверхность», а CCA - это более «глубокие» слои того же аналитического предприятия. Я не говорил, что они являются синонимами или что один является конкретным случаем другого.
ttnphns
1
Понимаю. Я решил опубликовать еще один ответ здесь, предоставляя математические детали эквивалентности LDA / регрессии.
говорит амеба, восстанови Монику
11

Вот ссылка на одну из статей Эфрона: «Эффективность логистической регрессии по сравнению с обычным дискриминантным анализом» , 1975.

Еще одна важная статья - Ng & Jordan, 2001, « О дискриминационных и порождающих классификаторах: сравнение логистической регрессии и наивного байесовского алгоритма» . А вот резюме комментария к нему Xue & Titterington , 2008, в котором упоминаются работы О'Нила, связанные с его диссертацией:

Сравнение порождающих и дискриминационных классификаторов - вечная тема. В качестве важного вклада в эту тему, основываясь на своих теоретических и эмпирических сравнениях между наивным байесовским классификатором и линейной логистической регрессией, Нг и Джордан (NIPS 841 - 848, 2001) утверждали, что существуют два различных режима работы между генеративными и дискриминационные классификаторы в отношении размера обучающего набора. В этой статье наши эмпирические и имитационные исследования, как дополнение к их работе, однако, предполагают, что существование двух различных режимов не может быть настолько надежным. Кроме того, для наборов данных реального мира до сих пор не существует теоретически правильного общего критерия выбора между дискриминационным и генеративным подходами к классификации наблюдений.Икс в классY ; выбор зависит от относительной уверенности в правильности спецификации либоп(Y|Икс) либоп(Икс,Y) для данных. Это может быть до некоторой степени демонстрацией того, почему Эфрон (J Am Stat Assoc 70 (352): 892 --- 898, 1975) и О'Нил (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) предпочитают нормальный линейный дискриминантный анализ (LDA), когда не происходит неправильной спецификации модели, но другие эмпирические исследования могут предпочесть линейную логистическую регрессию. Кроме того, мы предполагаем, что спаривание либо LDA, предполагающего общую диагональную ковариационную матрицу (LDA), либо наивного байесовского классификатора и линейной логистической регрессии, может быть неидеальным, и, следовательно, оно может быть ненадежным для любого утверждения, полученного из сравнения между LDA или наивный байесовский классификатор и линейная логистическая регрессия, которые должны быть обобщены для всех порождающих и дискриминационных классификаторов.

Есть много других ссылок на это, которые вы можете найти в Интернете.

Майкл Р. Черник
источник
+1 за многие удачно расположенные ссылки на (теперь уточненный ОП) предмет логистической регрессии по сравнению с LDA.
Макро
1
Вот еще одно сравнение генеративных и дискриминационных классификаторов Ярослава Булатова на Quora: quora.com/…
Pardis
Также связанная тема, stats.stackexchange.com/q/95247/3277
ttnphns
7

Цель этого ответа - объяснить точную математическую связь между линейным дискриминантным анализом (LDA) и многомерной линейной регрессией (MLR). Оказывается, что правильную основу обеспечивает регрессия пониженного ранга (RRR).

Мы покажем, что LDA эквивалентно RRR матрицы отбеленных индикаторов классов в матрице данных.


нотация

Пусть будет матрицей n × d с точками данных x i в строках и переменными в столбцах. Каждая точка принадлежит одному из k классов или групп. Точка x i принадлежит классу номер g ( i ) .ИксN×dИксяКИксяг(я)

Пусть будет членством группы кодирования матрицы индикаторов n × k следующим образом: G i j = 1, если x i принадлежит классу j , и G i j = 0 в противном случае. В классе j имеется n j точек данных ; конечно n j = n .гN×КгяJзнак равно1ИксяJгяJзнак равно0NJJΣNJзнак равноN

Мы предполагаем, что данные центрированы и поэтому глобальное среднее равно нулю, . Пусть µ j - среднее значение класса j .μзнак равно0μJJ

LDA

Матрица полного рассеяния может быть разложена на сумму матриц рассеяния между классами и внутри классов, определяемых следующим образом: C bСзнак равноИксИкс Можно проверить, чтоC=Cb+Cw. LDA ищет дискриминантные оси, которые имеют максимальную дисперсию между группами и минимальную внутригрупповую дисперсию проекции. В частности, первая дискриминантная ось представляет собой единичный векторw,максимизирующийwCbw/(wC

Сбзнак равноΣJNJμJμJСвесзнак равноΣ(Икся-μг(я))(Икся-μг(я)),
Сзнак равноСб+Свесвес , и первые p дискриминантных осей, собранные вместе в матрицу W, должны максимизировать след L L D A = tr ( WC b W ( WC w W ) - 1 ) .весСбвес/(весСвесвес)пW
LLDAзнак равнотр(WСбW(WСвесW)-1),

Предполагая, что является полным рангом, решение LDA W L D A является матрицей собственных векторов C - 1 w C b (упорядоченных по собственным значениям в порядке убывания).СвесWLDAСвес-1Сб

Это была обычная история. Теперь давайте сделаем два важных замечания.

б/весб/(б+вес)С-1Сб

гИксNJгг(гг)-1гИксСб

Сбзнак равноИксг(гг)-1гИкс,
NJмИксггИкс/м

г~1/NJг1Сбзнак равноИксг~г~Иксг~г~знак равног(гг)-1/2

регрессия

Для простоты начнем со случая сбалансированного набора данных.

гИксВ| |г-ИксВ| |2ВпВВзнак равноDFDFп

DWLDA

DFFзнак равно(DИксИксD)-1DИксг

| |г-ИксD(DИксИксD)-1DИксг| |2,
| |A| |2знак равноTр(AA)
tr(DXGGXD(DXXD)1),
which is actually nothing else than
=tr(DCbD(DCD)1)/mLLDA.

This finishes the proof. For unbalanced datasets we need to replace G with G~.

One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.

Relationship between LDA, CCA, and RRR

In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between X and G. In addition, CCA between any Y and X can be written as RRR predicting whitened Y from X. The rest follows from this.

Bibliography

It is hard to say who deserves the credit for what is presented above.

There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.

The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.

amoeba says Reinstate Monica
источник
+1 from me for the particulars and for referring to my answer and for introducing the RRR here (upvoting in advance because it will pass some unknown time before I sit down to tear through all that magnificent/formidable algebra!).
ttnphns
0

Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.

The main similarity between the two is term linear in the titles.

Michael R. Chernick
источник
Извините, я написал неправильно. Должен быть регресс и LDA. Я видел несколько статей о линейных дискриминантах с помощью регрессии, но я не знаю, как это работает. Я думаю, что LDA и логистическая регрессия для двух классов имеют некоторые отношения, но не могут очень ясно сказать, что они есть. И для более чем двух классов, я не знаю, есть ли какие-либо отношения.
zca0
1
Да, существует связь между логистической регрессией и линейным дискриминантным анализом. Эфрон и его ученик Терри О'Нейлл написали об этом в конце 1970-х годов. Я постараюсь найти ссылку на ссылку.
Майкл Р. Черник
2
Вот связанный вопрос и ответы на резюме. stats.stackexchange.com/questions/14697/...
Майкл Р. Черник
-1 because actually there is a deep relation between LDA and regression, as both @ttnphns and myself explain in our answers.
amoeba says Reinstate Monica