Кажущееся несогласие источников по линейному, квадратичному и дискриминантному анализу Фишера

10

Я изучаю дискриминантный анализ, но мне трудно согласовать несколько разных объяснений. Я полагаю, что я что-то упускаю, потому что я никогда не сталкивался с этим (кажущимся) уровнем несоответствия раньше. При этом, количество вопросов о дискриминантном анализе на этом сайте, кажется, свидетельствует о его сложности.

LDA и QDA для нескольких классов

Мой основной учебник - «Прикладной многовариантный статистический анализ» (AMSA) «Johnson & Wichern» и примечания моего учителя, основанные на этом. Я проигнорирую настройку двух групп, потому что я считаю, что упрощенные формулы в этой настройке вызывают, по крайней мере, некоторую путаницу. Согласно этому источнику, LDA и QDA определяются как параметрическое (при условии многомерной нормальности) расширение правила классификации на основе ожидаемой стоимости ошибочной классификации (ECM). ECM суммирует условную ожидаемую стоимость для классификации нового наблюдения x для любой группы (включая затраты на неправильную классификацию и предыдущие вероятности), и мы выбираем области классификации, которые минимизируют это.

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
где,- плотность населения,R_k- набор наблюдений в группе k,c- стоимость, аp_if i ( x ) R k c p iP(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dxfi(x)Rkcpiаприорные вероятности. Новые наблюдения затем могут быть назначены группе, для которой внутренний термин является наименьшим или эквивалентно, для которого оставленная часть внутреннего члена пКеК(Икс) является самой большой

Предположительно, это правило классификации эквивалентно «правилу, которое максимизирует апостериорные вероятности» (sic AMSA), которое, как я могу только предположить, является байесовским подходом, о котором я уже упоминал. Это правильно? И ECM - более старый метод, потому что я никогда не видел, чтобы это происходило где-либо еще.

Для нормальных популяций это правило упрощается до квадратичной дискриминантной оценки:

dяQ(Икс)знак равно-12Lог(Σя)-12(Икс-μя)TΣя-1(Икс-μя)+Lог(пя)
.

Это кажется эквивалентным формуле 4.12 «Элементы статистического обучения» (ESL) на странице 110, хотя они описывают ее как квадратичную дискриминантную функцию, а не как оценку . Более того, они поступают сюда через логарифмическое соотношение многомерных плотностей (4.9). Это еще одно название подхода Байеса?

Когда мы предполагаем равную ковариацию, формула еще больше упрощается до линейной дискриминантной оценки .

dя(Икс)знак равноμяTΣ-1Икс-12μяTΣ-1μя+Lог(пя)

Эта формула отличается от ESL (4.10), где первый член перевернут: . Версия ESL также указана в разделе « Статистическое обучение в R» . Кроме того, в выходных данных SAS, представленных в AMSA, описана линейная дискриминантная функция, состоящая из константы и коэффициента vector , по-видимому, соответствует версии ESL. 0,5 ˉ X T j C O V - 1 ˉ X j + l n  предшествующий j C O V - 1 ˉ X jxTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

В чем может быть причина этого несоответствия?

Дискриминанты и метод Фишера

Примечание: если этот вопрос считается слишком большим, я удалю этот раздел и открою новый вопрос, но он основан на предыдущем разделе. Приносим извинения за стену текста, я старался изо всех сил структурировать его, но я уверен, что мое замешательство по поводу этого метода привело к некоторым довольно странным скачкам логики.

Книга AMSA продолжает описывать метод Фишера, также для нескольких групп. Тем не менее, ttnphns отметил несколько раз , что FDA просто LDA с двумя группами. Что это за мультикласс FDA? Возможно, FDA может иметь несколько значений?

AMSA описывает дискриминанты Фишера как собственные векторы которые максимизируют отношение . Тогда линейные комбинации являются выборочными дискриминантами (из которых ). Для классификации мы выбираем группу k с наименьшим значением для где r - количество дискриминантов, которые мы хотели бы использовать. Если мы используем все дискриминанты, это правило будет эквивалентно линейной дискриминантной функции.Т В вW1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

Многие объяснения относительно LDA, кажется, описывают методологию, которая называется FDA в книге AMSA, то есть, начиная с этого между / в аспекте изменчивости. Что тогда подразумевается под FDA, если не разложение матриц BW?

Это первый раз, когда в учебнике упоминается аспект уменьшения размерности дискриминантного анализа, в то время как в нескольких ответах на этом сайте подчеркивается двухэтапный характер этого метода, но это неясно в условиях двух групп, поскольку существует только 1 дискриминант. Учитывая вышеприведенные формулы для мультиклассовых LDA и QDA, мне все еще не ясно, где проявляются дискриминанты.

Этот комментарий особенно смутил меня, отметив, что байесовская классификация может быть выполнена по исходным переменным. Но если FDA и LDA математически эквивалентны, как указано в книге и здесь , не должно ли уменьшение размерности быть присуще функциям ? Я верю, что это то, к чему обращается последняя ссылка, но я не совсем уверен.di

Далее в заметках моего учителя объясняется, что FDA - это, по сути, форма канонического корреляционного анализа. Я нашел только 1 другой источник, в котором говорится об этом аспекте, но, опять же, похоже, он тесно связан с подходом Фишера, заключающимся в разложении между и внутри изменчивости. SAS представляет результат в своей процедуре LDA / QDA (DISCRIM), который, очевидно, связан с методом Фишера ( https://stats.stackexchange.com/a/105116/62518 ). Однако опция SAS FDA (CANDISC) по существу выполняет каноническую корреляцию, не представляя эти так называемые классификационные коэффициенты Фишера. Он представляет необработанные канонические коэффициенты, которые, как я считаю, эквивалентны собственным векторам W-1B R, полученным с помощью lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Классификационные коэффициенты, кажется, получены из дискриминантной функции, которую я описал в моем разделе LDA и QDA (поскольку на одну популяцию приходится 1 функция, и мы выбираем самую большую).

Я был бы благодарен за любые разъяснения или ссылки на источники, которые могли бы помочь мне увидеть лес сквозь деревья. Основная причина моего замешательства, похоже, заключается в том, что разные учебники называют методы под разными именами или представляют небольшую разницу в математике, не признавая других возможностей, хотя я полагаю, что это не должно вызывать удивления, учитывая возраст книги AMSA. ,

Зенит
источник
If we use all the discriminants this rule would be equivalent to the linear discriminant functionНеясно. «Дискриминант» и «дискриминантная функция» являются синонимами. Вы можете использовать все дискриминанты или только несколько сильнейших / значимых из них. Я не обращался к книге AMSA, но подозреваю, что FDA = LDA, для авторов. На самом деле, я лично считаю, что «Fisher LDA» будет излишним, ненужным термином.
ttnphns
В «Дополнении» к этому ответу о классификации LDA я замечаю, что вычисление «функций линейной классификации Фишера» непосредственно из переменных эквивалентно тому, Extract the discriminants -> classify by them all (using Bayes approach, as usual)когда, как обычно по умолчанию, объединенная внутриклассовая ковариационная матрица дискриминантов используется в классификации.
ttnphns
На самом деле, «функции линейной классификации Фишера» - это способ сделать LDA без собственного разложения, W^-1Bа затем выполнить «байесовский анализ ». Это эквивалентно, но менее гибко (Вы не можете выбрать только несколько дискриминантов, вы не можете использовать отдельные в ковариационных матрицах при классификации и т. Д.).
ttnphns
W1В
Зенит, для меня дискриминантная оценка - это значение (канонической) дискриминантной функции. Я не могу зайти так далеко, чтобы сравнить приведенные вами формулы с тем, что я знаю о том, как канонические дискриминанты вычисляются в SPSS . Я предлагаю вам сделать расчеты и сравнить результаты, и опубликовать ваши выводы. Также я подозреваю, что разные тексты могут по-разному наносить ярлык «Фишер».
ttnphns

Ответы:

8

Я обращаюсь только к одному аспекту вопроса и делаю это интуитивно без алгебры.

гпQзнак равномяN(г-1,п)В1,В2,В3Qзнак равног-1знак равно2D1,D2

введите описание изображения здесь

Дискриминанты являются некоррелированными переменными, их ковариационные матрицы внутри класса являются идеально тождественными (шарики). Дискриминанты образуют подпространство пространства исходных переменных - это их линейные комбинации. Однако они не являются осями, подобными вращению (PCA-подобными): видимые в пространстве исходных переменных дискриминанты как оси не взаимно ортогональны .

м<Q

гпгQ1

Qп) вместо их объединенной матрицы (которая является тождеством).

(И да, LDA можно рассматривать как тесно связанный, даже в конкретном случае, с MANOVA и каноническим корреляционным анализом или многомерной регрессией пониженного ранга - см. , См. , См .)


1гQW-1В). Для ясности я рекомендую сказать «классификационные функции Фишера» против «канонических дискриминантных функций» (= дискриминанты, для краткости). В современном понимании LDA - это канонический линейный дискриминантный анализ. «Дискриминантный анализ Фишера» - это, по крайней мере, мне известно, либо LDA с 2 классами (где один канонический дискриминант неизбежно совпадает с классификационными функциями Фишера), либо, в общем, вычисление классификационных функций Фишера в мультиклассовых настройках.

ttnphns
источник
В отношении терминологии: в статье Википедии о LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) говорится, что «термины линейный дискриминант Фишера и LDA часто используются взаимозаменяемо, хотя в оригинальной статье Фишера [1] фактически описывается несколько иной дискриминант, который не делать некоторые из допущений LDA, таких как нормально распределенные классы или равные классовые ковариации ". Исходя из этого, LDA для 2 классов представляется частным случаем «FDA», если групповые ковариации «одинаковы». @ttnphns: это правильно?
Ларикс Децидуа
@LaryxDecidua, я не на 100% уверен в терминологии в этом случае, и я видел разные мнения. Я не использую термин "DA Фишера" вообще. Но когда люди спрашивают, я отвечаю: «FDA - это LDA с 2 классами».
ttnphns
Спасибо, для меня наиболее интересным аспектом является то, что «FDA», согласно Википедии, не принимает нормальность, в то время как «LDA» (и QDA) делают. Возможно, «FDA - это LDA с 2 классами, не предполагающими нормальности или гомоскедастичности».
Ларикс Децидуа