Вот короткий рассказ о линейном дискриминантном анализе (LDA) в ответ на вопрос.
Когда у нас есть одна переменная и групп (классов) для ее различения, это ANOVA. Дискриминация сила переменной S S между группами / S S внутри групп , или B / W .kSSbetween groups/SSwithin groupsB/W
Когда у нас есть переменных, это MANOVA. Если переменные не коррелированы ни в общей выборке, ни в группах, то вышеуказанная мощность различения, B / W , вычисляется аналогично и может быть записана как t r a c e ( S b ) / t r a c e ( S w ) где S w - объединенная матрица рассеяния внутри группы (то есть сумма k SSCP-матриц переменных, центрированных относительно центроида соответствующих групп); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sb- матрица рассеяния между группами , где S t - матрица рассеяния для целых данных (SSCP-матрица переменных, центрированных вокруг большого центроида. («Матрица рассеяния» - это просто ковариационная матрица без разделения) по sample_size-1.)=St−SwSt
Когда есть некоторая корреляция между переменными - и обычно есть - вышеупомянутый выражается как S - 1 w S b, который больше не является скаляром, а матрицей. Это просто из-за того, что за этой «общей» дискриминацией скрыты p дискриминационных переменных, которые частично разделяют ее.B/WS−1wSbp
Теперь мы можем захотеть погрузиться в MANOVA и разложить на новые и взаимно ортогональные скрытые переменные (их число равно m i n ( p , k - 1 ) ), называемые дискриминантными функциями или дискриминантами - 1-й является самым сильным дискриминатор, второе место позади и т. д. Точно так же, как мы делаем это в анализе основных компонентов. Мы заменяем исходные коррелированные переменные некоррелированными дискриминантами без потери дискриминантной силы. Поскольку каждый следующий дискриминант все слабее и слабее, мы можем принять небольшое подмножество первого mS−1wSbmin(p,k−1)mдискриминанты без большой потери дискриминирующей силы (опять же, аналогично тому, как мы используем PCA). Это сущность LDA как метода уменьшения размерности (LDA - также метод классификации Байеса, но это совершенно отдельная тема).
Таким образом, LDA напоминает PCA. PCA разлагает «корреляцию», LDA разлагает «отделенность». В LDA, так как выше матрица выражения «разделенности» не является симметричной, обводным алгебраическим трюком используются для нахождения его собственных значений и собственных векторов 1 . Собственное значение каждой дискриминантной функции (латентная переменная) является дискриминационным мощность B / W Я говорил о том, в первом абзаце. Кроме того, стоит отметить, что дискриминанты, хотя и некоррелированные, не являются геометрически ортогональными, как оси, нарисованные в исходном пространстве переменных.1B/W
Некоторые потенциально связанные темы, которые вы можете прочитать:
LDA - это MANOVA, «углубленная» в анализ латентной структуры и являющаяся частным случаем канонического корреляционного анализа (точная эквивалентность между ними как таковая ).
Как LDA классифицирует объекты и каковы коэффициенты Фишера. (Я ссылаюсь только на свои собственные ответы, поскольку я их помню, но на этом сайте также есть много хороших и лучших ответов от других людей).
Расчеты фазы извлечения LDAследующие. Собственные значения ( L ) для S - 1 w S b такие же, как и у симметричной матрицы ( U - 1 ) ′ S b U - 1 , где U -корень Холецкогоиз S w : верхнетреугольная матрица, в которой U ′ U = S w . Что касается собственных векторов S - 1 w S b , они задаются формулой V1 LS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSb , где E - собственные векторы вышеуказанной матрицы ( U - 1 ) ′ S b U - 1 . (Примечание: U , будучи треугольным,можно инвертировать- используя язык низкого уровня - быстрее, чем используя стандартную универсальную функцию пакетов inv).)V=U−1EE(U−1)′SbU−1U
Описанный метод обхода собственного разложения реализован в некоторых программах (например, в SPSS), в то время как в других программах реализован метод «квази-отбеливания», который немного медленнее. , дает те же результаты и описано в другом месте . Суммируя его здесь: получить ZCA отбеливание матрицы для S ш - симметричные кв корень. S - 1 / 2 ш (что делается через eigendecomposition); затем eigendecomposition из S - 1 / 2 ш S б S - 1 /S−1wSbSwS−1/2w (который является симметричной матрицей) дает дискриминантные собственные значенияLи собственные векторыA,результате чего дискриминантные собственных векторовV=S - 1 / 2 ш А. Метод «квази-отбеливания» можно переписать так, чтобы он выполнялся путем разложения по наборам данных по сингулярным значениям вместо работы сматрицами рассеянияSwиSb; это добавляет вычислительную точность (что важно в ситуации почти сингулярности), но жертвует скоростью.S−1/2wSbS−1/2wLAV=S−1/2wASwSb
Хорошо, давайте обратимся к статистике, обычно вычисляемой в LDA. Канонические корреляции, соответствующие собственным значениям: . Принимая во внимание, что собственное значение дискриминанта являетсяB/WANOVA этого дискриминанта, квадрат канонической корреляции равенB/T(T = общая сумма квадратов) этого ANOVA.Γ=L/(L+1)−−−−−−−−−√B/WB/T
Если вы нормализуете (до SS = 1) столбцы собственных векторов то эти значения можно рассматривать как направляющие косинусы вращения осей-переменных в оси-дискриминанты; поэтому с их помощью можно построить дискриминанты в виде осей на диаграмме рассеяния, определенных исходными переменными (собственные векторы, как оси в пространстве этих переменных, не ортогональны).V
Нестандартные дискриминантные коэффициенты или веса - это просто масштабированные собственные векторы . Это коэффициенты линейного предсказания дискриминантов по центру исходных переменных. Значения самих дискриминантных функций (оценки дискриминантов) равныXC, гдеX- центрированные исходные переменные (входные многомерные данные с центром в каждом столбце). Дискриминанты некоррелированы. И когда они вычисляются по приведенной выше формуле, они также обладают тем свойством, что их объединенная ковариационная матрица внутри класса является единичной матрицей.C=N−k−−−−−√ VXCX
Необязательные постоянные члены, сопровождающие нестандартные коэффициенты и позволяющие децентрировать дискриминанты, если входные переменные имели ненулевое среднее значение, представляют собой , где d i a g ( ˉ X ) - это диагональная матрица средних значений p-переменных и ∑ p - сумма переменных.C0=−∑pdiag(X¯)Cdiag(X¯)∑p
K=diag(Sw)−−−−−−−−√VSw
R=diag(Sw)−1SwV
Смотрите полный вывод фазы экстракции дискриминантного анализа радужки данных здесь .
Прочитайте этот хороший ответ позже, который объясняет немного более формально и детализирует те же вещи, что и я здесь.
Этот вопрос касается вопроса стандартизации данных перед выполнением LDA.