Линейный дискриминантный анализ и правило Байеса: классификация

12

Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило Байеса.

zca0
источник
Дискриминантные функции извлекаются таким образом, чтобы максимизировать вариацию между группами к коэффициентам вариаций внутри группы. Это не имеет ничего общего с классификацией, которая является вторым и отдельным этапом LDA.
ttnphns

Ответы:

16

Классификация в LDA идет следующим образом (подход правила Байеса). [О выделении дискриминантов можно посмотреть здесь .]

Согласно теореме Байеса, искомая вероятность того, что мы имеем дело с классом при наблюдении текущей точки равна , гдеx P ( k | x ) = P ( k ) P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

k P ( x ) x P ( x | k ) x k kP(k) - безусловная (фоновая) вероятность класса ; - безусловная (фоновая) вероятность точки ; - вероятность присутствия точки в классе , если класс, с которым ведется работа, равен .kP(x)xP(x|k)xkk

«Наблюдение текущей точки » является базовым условием, , и поэтому знаменатель может быть опущен. Таким образом, .P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) - предварительная (доаналитическая) вероятность того, что нативный класс для равен ; определяется пользователем. Обычно по умолчанию все классы получают равные = 1 / number_of_classes. Чтобы вычислить , то есть апостериорную (постаналитическую) вероятность того, что нативный класс для равен , нужно знать .xkP(k)P(k)P(k|x)xkP(x|k)

P ( x | k ) x k P D F ( x | k ) p pP(x|k) - вероятность как таковая - не может быть найдена, для дискриминантов, основной проблемой LDA, являются непрерывные, а не дискретные переменные. Величина, выражающая в этом случае и пропорциональная ей, является плотностью вероятности (функция PDF). Таким образом, нам нужно вычислить PDF для точки в классе , , в мерном нормальном распределении, образованном значениями дискриминантов. [См. Wikipedia Multivariate нормальное распределение]P(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

где - расстояние Махаланобиса в квадрате [см. расстояние Махаланобиса из Википедии] в пространстве дискриминантов от точки до центроида класса; - ковариационная матрица между дискриминантами , наблюдаемыми в этом классе.х сdxS

Вычислите таким образом для каждого из классов. для точки и класса выражает искомое для нас. Но с указанным выше резервом, что PDF не является вероятностью как таковой, а только пропорциональной, мы должны нормализовать , разделив на сумму с над всеми классами. Например, если всего 3 класса, , , , тоP ( k ) P D F ( x | k ) x k P ( k ) P ( x | k ) P ( k ) P D F ( x | k ) P ( k) ) P D F ( x | k ) kPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)kмlm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Точка назначается LDA классу, для которого является самым высоким.P ( k | x )xP(k|x)

Заметка. Это был общий подход. Многие программы LDA по умолчанию используют объединенную матрицу классов для всех классов в формуле для PDF выше. Если это так, формула значительно упрощается, потому что такой в LDA является единичной матрицей (см. Нижнюю сноску здесь ), и, следовательно, и превращается в квадрат евклидова расстояния (напоминание: объединенный в классе мы говорим, это ковариации между дискриминантами, а не между входными переменными, матрица которых обычно обозначается как ).S | S | = 1 d S S шSS|S|=1dSSw

Дополнение . До того, как в LDA был представлен подход правила Байеса к классификации, Фишер, пионер LDA, предложил вычислить теперь так называемые функции линейной классификации Фишера для классификации точек в LDA. Для точки оценка функции принадлежности к классу является линейной комбинацией , где - переменные предиктора в анализе.k b k v 1 V 1 x + b k v 2 V 2 x + . , , + С о п ы т к V 1 , V 2 , . , , V рxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

Коэффициент , где - количество классов, а - элемент объединенного рассеяния внутри класса матрица переменных. g s v w p Vbkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 .

Точка присваивается классу, для которого его оценка является самой высокой. Результаты классификации, полученные этим методом Фишера (который обходит извлечение дискриминантов, вовлеченных в сложное собственное разложение), идентичны результатам, полученным методом Байеса, только если объединенная ковариационная матрица внутри класса используется с методом Байеса, основанным на дискриминантах (см. «Примечание»). выше) и все дискриминанты используются в классификации. Метод Байеса является более общим, поскольку позволяет также использовать отдельные матрицы внутри класса.x

ttnphns
источник
Это Байесовский подход, верно? Каков подход Фишера к этому?
zca0
1
Добавлено к ответу по вашему запросу
ttnphns
+1 за различие между подходом Байеса и Фишера к LDA. Я новичок в LDA, и книги, которые я читаю, учат меня LDA в подходе Байеса, который классифицирует как класс с самым высоким , поэтому я должен вычислить все для каждого класса , верно? Подход Фишера, мне просто нужно выяснить дискриминанты и их соответствующие коэффициенты, и нет необходимости вычислять апостериорный для каждого класса, верно? K p ( K | X ) p ( K | X ) KXKp(K|X)p(K|X)K
авокадо
И я думаю, что байесовский подход более понятен, и почему мы должны использовать подход Фишера?
авокадо
Нам не нужно. Просто для исторического вопроса.
ttnphns
1

Предположим, равные веса для двух типов ошибок в задаче двух классов. Предположим, что эти два класса имеют многомерный класс условной плотности классификационных переменных. Тогда для любого наблюдаемого вектора и класса условных плотностей и правило Байеса классифицирует как принадлежащее группе 1, если и как класс 2 в противном случае. Байесовское правило оказывается линейным дискриминантным классификатором, если иf 1 ( x ) f 2 ( x ) x f 1 ( x ) f 2 ( x ) f 1 f 2xf1(x)f2(x)xf1(x)f2(x)f1f2оба многовариантные нормальные плотности с той же ковариационной матрицей. Конечно, чтобы иметь возможность различать средние векторы, они должны быть разными. Хорошую презентацию этого можно найти в Duda и Hart Pattern Classification and Scene Analysis 1973 (книга была недавно пересмотрена, но мне особенно нравится презентация в оригинальном издании).

Майкл Р. Черник
источник