Какова связь между линейным дискриминантным анализом и правилом Байеса? Я понимаю, что LDA используется в классификации, пытаясь минимизировать соотношение внутри групповой дисперсии и между групповой дисперсией, но я не знаю, как в ней используется правило Байеса.
12
Ответы:
Классификация в LDA идет следующим образом (подход правила Байеса). [О выделении дискриминантов можно посмотреть здесь .]
Согласно теореме Байеса, искомая вероятность того, что мы имеем дело с классом при наблюдении текущей точки равна , гдеx P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )k x P(k|x)=P(k)∗P(x|k)/P(x)
k P ( x ) x P ( x | k ) x k kP(k) - безусловная (фоновая) вероятность класса ; - безусловная (фоновая) вероятность точки ; - вероятность присутствия точки в классе , если класс, с которым ведется работа, равен .k P(x) x P(x|k) x k k
«Наблюдение текущей точки » является базовым условием, , и поэтому знаменатель может быть опущен. Таким образом, .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )x P(x)=1 P(k|x)=P(k)∗P(x|k)
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) - предварительная (доаналитическая) вероятность того, что нативный класс для равен ; определяется пользователем. Обычно по умолчанию все классы получают равные = 1 / number_of_classes. Чтобы вычислить , то есть апостериорную (постаналитическую) вероятность того, что нативный класс для равен , нужно знать .x k P(k) P(k) P(k|x) x k P(x|k)
P ( x | k ) x k P D F ( x | k ) p pP(x|k) - вероятность как таковая - не может быть найдена, для дискриминантов, основной проблемой LDA, являются непрерывные, а не дискретные переменные. Величина, выражающая в этом случае и пропорциональная ей, является плотностью вероятности (функция PDF). Таким образом, нам нужно вычислить PDF для точки в классе , , в мерном нормальном распределении, образованном значениями дискриминантов. [См. Wikipedia Multivariate нормальное распределение]P(x|k) x k PDF(x|k) p p
где - расстояние Махаланобиса в квадрате [см. расстояние Махаланобиса из Википедии] в пространстве дискриминантов от точки до центроида класса; - ковариационная матрица между дискриминантами , наблюдаемыми в этом классе.х сd x S
Вычислите таким образом для каждого из классов. для точки и класса выражает искомое для нас. Но с указанным выше резервом, что PDF не является вероятностью как таковой, а только пропорциональной, мы должны нормализовать , разделив на сумму с над всеми классами. Например, если всего 3 класса, , , , тоP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k) ) ∗ P D F ( x | k ) kPDF(x|k) P(k)∗PDF(x|k) x k P(k)∗P(x|k) P(k)∗PDF(x|k) P(k)∗PDF(x|k) k мl m
Точка назначается LDA классу, для которого является самым высоким.P ( k | x )x P(k|x)
Заметка. Это был общий подход. Многие программы LDA по умолчанию используют объединенную матрицу классов для всех классов в формуле для PDF выше. Если это так, формула значительно упрощается, потому что такой в LDA является единичной матрицей (см. Нижнюю сноску здесь ), и, следовательно, и превращается в квадрат евклидова расстояния (напоминание: объединенный в классе мы говорим, это ковариации между дискриминантами, а не между входными переменными, матрица которых обычно обозначается как ).S | S | = 1 d S S шS S |S|=1 d S Sw
Дополнение . До того, как в LDA был представлен подход правила Байеса к классификации, Фишер, пионер LDA, предложил вычислить теперь так называемые функции линейной классификации Фишера для классификации точек в LDA. Для точки оценка функции принадлежности к классу является линейной комбинацией , где - переменные предиктора в анализе.k b k v 1 V 1 x + b k v 2 V 2 x + . , , + С о п ы т к V 1 , V 2 , . , , V рx k bkv1V1x+bkv2V2x+...+Constk V1,V2,...Vp
Коэффициент , где - количество классов, а - элемент объединенного рассеяния внутри класса матрица переменных. g s v w p Vbkv=(n−g)∑pwsvwV¯kw g svw p V
Точка присваивается классу, для которого его оценка является самой высокой. Результаты классификации, полученные этим методом Фишера (который обходит извлечение дискриминантов, вовлеченных в сложное собственное разложение), идентичны результатам, полученным методом Байеса, только если объединенная ковариационная матрица внутри класса используется с методом Байеса, основанным на дискриминантах (см. «Примечание»). выше) и все дискриминанты используются в классификации. Метод Байеса является более общим, поскольку позволяет также использовать отдельные матрицы внутри класса.x
источник
Предположим, равные веса для двух типов ошибок в задаче двух классов. Предположим, что эти два класса имеют многомерный класс условной плотности классификационных переменных. Тогда для любого наблюдаемого вектора и класса условных плотностей и правило Байеса классифицирует как принадлежащее группе 1, если и как класс 2 в противном случае. Байесовское правило оказывается линейным дискриминантным классификатором, если иf 1 ( x ) f 2 ( x ) x f 1 ( x ) ≥ f 2 ( x ) f 1 f 2x f1(x) f2(x) x f1(x)≥f2(x) f1 f2 оба многовариантные нормальные плотности с той же ковариационной матрицей. Конечно, чтобы иметь возможность различать средние векторы, они должны быть разными. Хорошую презентацию этого можно найти в Duda и Hart Pattern Classification and Scene Analysis 1973 (книга была недавно пересмотрена, но мне особенно нравится презентация в оригинальном издании).
источник