Алгебра LDA. Различающая способность Фишера переменной и линейный дискриминантный анализ

13

По-видимому,

Анализ Фишера направлен на одновременное максимальное разделение между классами, одновременно сводя к минимуму дисперсию внутри класса. Следовательно, полезная мера степени различения переменной определяется диагональной величиной: Bii/Wii .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Я понимаю , что размер ( p x p) из С ( Б ) и В-класса ( W ) матрицы задается числом входных переменных, p. Учитывая это, как Bii/Wii может быть «полезной мерой силы различения» одной переменной? Для построения матриц B и W требуются как минимум две переменные, поэтому соответствующие трассы будут представлять более одной переменной.

Обновление: Правильно ли я считаю, что - это не след за следом, где подразумевается сумма, а матричный элемент деленный на ? В настоящее время это единственный способ примирить выражение с концепцией.Bii/Wii W я яBiiWii

категория
источник

Ответы:

23

Вот короткий рассказ о линейном дискриминантном анализе (LDA) в ответ на вопрос.

Когда у нас есть одна переменная и групп (классов) для ее различения, это ANOVA. Дискриминация сила переменной S S между группами / S S внутри групп , или B / W .kSSbetween groups/SSwithin groupsB/W

Когда у нас есть переменных, это MANOVA. Если переменные не коррелированы ни в общей выборке, ни в группах, то вышеуказанная мощность различения, B / W , вычисляется аналогично и может быть записана как t r a c e ( S b ) / t r a c e ( S w ) где S w - объединенная матрица рассеяния внутри группы (то есть сумма k SSCP-матриц переменных, центрированных относительно центроида соответствующих групп); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p Sb- матрица рассеяния между группами , где S t - матрица рассеяния для целых данных (SSCP-матрица переменных, центрированных вокруг большого центроида. («Матрица рассеяния» - это просто ковариационная матрица без разделения) по sample_size-1.)=StSwSt

Когда есть некоторая корреляция между переменными - и обычно есть - вышеупомянутый выражается как S - 1 w S b, который больше не является скаляром, а матрицей. Это просто из-за того, что за этой «общей» дискриминацией скрыты p дискриминационных переменных, которые частично разделяют ее.B/WSw1Sbp

Теперь мы можем захотеть погрузиться в MANOVA и разложить на новые и взаимно ортогональные скрытые переменные (их число равно m i n ( p , k - 1 ) ), называемые дискриминантными функциями или дискриминантами - 1-й является самым сильным дискриминатор, второе место позади и т. д. Точно так же, как мы делаем это в анализе основных компонентов. Мы заменяем исходные коррелированные переменные некоррелированными дискриминантами без потери дискриминантной силы. Поскольку каждый следующий дискриминант все слабее и слабее, мы можем принять небольшое подмножество первого mSw1Sbmin(p,k1)mдискриминанты без большой потери дискриминирующей силы (опять же, аналогично тому, как мы используем PCA). Это сущность LDA как метода уменьшения размерности (LDA - также метод классификации Байеса, но это совершенно отдельная тема).

Таким образом, LDA напоминает PCA. PCA разлагает «корреляцию», LDA разлагает «отделенность». В LDA, так как выше матрица выражения «разделенности» не является симметричной, обводным алгебраическим трюком используются для нахождения его собственных значений и собственных векторов 1 . Собственное значение каждой дискриминантной функции (латентная переменная) является дискриминационным мощность B / W Я говорил о том, в первом абзаце. Кроме того, стоит отметить, что дискриминанты, хотя и некоррелированные, не являются геометрически ортогональными, как оси, нарисованные в исходном пространстве переменных.1B/W

Некоторые потенциально связанные темы, которые вы можете прочитать:

LDA - это MANOVA, «углубленная» в анализ латентной структуры и являющаяся частным случаем канонического корреляционного анализа (точная эквивалентность между ними как таковая ). Как LDA классифицирует объекты и каковы коэффициенты Фишера. (Я ссылаюсь только на свои собственные ответы, поскольку я их помню, но на этом сайте также есть много хороших и лучших ответов от других людей).


Расчеты фазы извлечения LDAследующие. Собственные значения ( L ) для S - 1 w S b такие же, как и у симметричной матрицы ( U - 1 ) S b U - 1 , где U -корень Холецкогоиз S w : верхнетреугольная матрица, в которой U U = S w . Что касается собственных векторов S - 1 w S b , они задаются формулой V1 LSw1Sb(U1)SbU1USwUU=SwSw1Sb , где E - собственные векторы вышеуказанной матрицы ( U - 1 ) S b U - 1 . (Примечание: U , будучи треугольным,можно инвертировать- используя язык низкого уровня - быстрее, чем используя стандартную универсальную функцию пакетов inv).)V=U1EE(U1)SbU1U

Описанный метод обхода собственного разложения реализован в некоторых программах (например, в SPSS), в то время как в других программах реализован метод «квази-отбеливания», который немного медленнее. , дает те же результаты и описано в другом месте . Суммируя его здесь: получить ZCA отбеливание матрицы для S ш - симметричные кв корень. S - 1 / 2 ш (что делается через eigendecomposition); затем eigendecomposition из S - 1 / 2 ш S б S - 1 /Sw1SbSwSw1/2 (который является симметричной матрицей) дает дискриминантные собственные значенияLи собственные векторыA,результате чего дискриминантные собственных векторовV=S - 1 / 2 ш А. Метод «квази-отбеливания» можно переписать так, чтобы он выполнялся путем разложения по наборам данных по сингулярным значениям вместо работы сматрицами рассеянияSwиSb; это добавляет вычислительную точность (что важно в ситуации почти сингулярности), но жертвует скоростью.Sw1/2SbSw1/2LAV=Sw1/2ASwSb

Хорошо, давайте обратимся к статистике, обычно вычисляемой в LDA. Канонические корреляции, соответствующие собственным значениям: . Принимая во внимание, что собственное значение дискриминанта являетсяB/WANOVA этого дискриминанта, квадрат канонической корреляции равенB/T(T = общая сумма квадратов) этого ANOVA.Γ=L/(L+1)B/WB/T

Если вы нормализуете (до SS = 1) столбцы собственных векторов то эти значения можно рассматривать как направляющие косинусы вращения осей-переменных в оси-дискриминанты; поэтому с их помощью можно построить дискриминанты в виде осей на диаграмме рассеяния, определенных исходными переменными (собственные векторы, как оси в пространстве этих переменных, не ортогональны).V

Нестандартные дискриминантные коэффициенты или веса - это просто масштабированные собственные векторы . Это коэффициенты линейного предсказания дискриминантов по центру исходных переменных. Значения самих дискриминантных функций (оценки дискриминантов) равныXC, гдеX- центрированные исходные переменные (входные многомерные данные с центром в каждом столбце). Дискриминанты некоррелированы. И когда они вычисляются по приведенной выше формуле, они также обладают тем свойством, что их объединенная ковариационная матрица внутри класса является единичной матрицей.C=Nk VXCX

Необязательные постоянные члены, сопровождающие нестандартные коэффициенты и позволяющие децентрировать дискриминанты, если входные переменные имели ненулевое среднее значение, представляют собой , где d i a g ( ˉ X ) - это диагональная матрица средних значений p-переменных и p - сумма переменных.C0=pdiag(X¯)Cdiag(X¯)p

K=diag(Sw)VSw

R=diag(Sw)1SwV


Смотрите полный вывод фазы экстракции дискриминантного анализа радужки данных здесь .

Прочитайте этот хороший ответ позже, который объясняет немного более формально и детализирует те же вещи, что и я здесь.

Этот вопрос касается вопроса стандартизации данных перед выполнением LDA.

ttnphns
источник
X
1
Да. Однако слово «подход Фишера» неоднозначно. Это может означать 2 вещи: 1) LDA (для 2 -х классов) сам по себе ; 2) Функции классификации Фишера в LDA.
ttnphns