Байесовский и фишеровский подходы к линейному дискриминантному анализу

10

Я знаю 2 подхода к LDA, байесовский подход и подход Фишера .

Предположим, у нас есть данные , где - это мерный предиктор, а - зависимая переменная классов.(x,y)xpyK

С помощью байесовского подхода мы вычисляем апостериорное и как сказано в книгах, предположим, что является гауссовским, теперь у нас есть дискриминантная функция для го класса, как , я вижу, что является линейным функция , поэтому для всех классов мы имеем линейных дискриминантных функций.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)k
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

Однако, используя подход Фишера , мы пытаемся спроецировать в размерное пространство, чтобы извлечь новые возможности, которые минимизируют дисперсию внутри класса и максимизируют дисперсию между классами , скажем, матрица проекции - это где каждый столбец является проекцией направление. Этот подход больше похож на технику уменьшения размеров .x(K1)W

Мои вопросы

(1) Можем ли мы уменьшить размерность, используя байесовский подход? Я имею в виду, что мы можем использовать байесовский подход для классификации путем нахождения дискриминантных функций которые дают наибольшее значение для нового , но можно ли использовать эти дискриминантные функции для проецирования на более низкое размерное подпространство ? Точно так же, как подход Фишера .fk(x)xfk(x)x

(2) и как два подхода связаны друг с другом? Я не вижу какой-либо связи между ними, потому что один, кажется, просто может провести классификацию по значению , а другой в первую очередь нацелен на уменьшение размерности.fk(x)

ОБНОВИТЬ

Благодаря @amoeba, согласно книге ESL, я нашел это: введите описание изображения здесь

и это линейная дискриминантная функция, полученная с помощью теоремы Байеса плюс допущение, что все классы имеют одинаковую ковариационную матрицу . И эта дискриминантная функция та же, что и я написал выше.Σfk(x)

Могу ли я использовать в качестве направления для проецирования для уменьшения размера? Я не уверен в этом, так как AFAIK сокращение размеров достигается путем анализа отклонений между ними .Σ1μkx

ОБНОВЛЕНИЕ СНОВА

Из раздела 4.3.3, как эти прогнозы получены:

введите описание изображения здесь

и, конечно, он предполагает общую ковариацию между классами, то есть общую ковариационную матрицу (для ковариации внутри класса)W , верно? Моя проблема в том, как мне вычислить этот из данных? Поскольку у меня было бы различных ковариационных матриц внутри класса, если бы я попытался вычислить из данных. Так нужно ли объединять ковариации всех классов, чтобы получить общую?K WWKW

авокадо
источник
1
Ваш вопрос смешивает две вещи. Я думаю, что вы не переварили наш разговор по предыдущему вопросу. Сначала вы описываете байесовский подход к классификации (а не «байесовский подход к LDA»). Этот подход можно использовать (1) с исходными переменными в качестве классификаторов или (2) с дискриминантами, полученными в LDA в качестве классификаторов. Каков подход Фишера тогда?
ttnphns
1
(Продолжение.) Ну, «LDA Фишера» - это просто LDA с K = 2. При выполнении классификации в рамках такого LDA Фишер изобрел свои собственные формулы для выполнения классификации. Эти формулы могут работать и для K> 2. Его метод классификации вряд ли используется в настоящее время, потому что байесовский подход является более общим.
ttnphns
1
@ttnphns, причина, по которой я в замешательстве, заключается в том, что почти каждая книга, о которой я говорил, рассказывает о LDA, использующем этот байесовский подход, читая LDA как генеративную модель, в них не упоминается соотношение между группами и внутри группового отклонения ,
авокадо
1
@loganecolss: Вы видели мой ответ ниже? У вас есть вопросы по этому поводу? Я немного смущен, потому что я думал, что объяснил то, что вы сейчас спрашиваете снова в комментариях. Подход «между дисперсиями» математически эквивалентен «байесовскому подходу» с допущением равных ковариаций. Вы можете думать об этом как о удивительной математической теореме, если хотите. Доказательство дано в книге Хасти, которая свободно доступна онлайн, а также в некоторых других учебниках по машинному обучению. Так что я не уверен, что может означать «единственный подлинный способ сделать LDA»; эти два одинаковых способа.
амеба
1
@loganecolss: Поверьте, они эквивалентны :) Да, вы должны иметь возможность получать прогнозы, но вам нужно дополнительное предположение о равных ковариационных матрицах (как я написал в своем ответе). Смотрите мой комментарий ниже.
амеба

Ответы:

11

Я предоставлю лишь краткий неофициальный ответ и отошлю вас к разделу 4.3 «Элементы статистического обучения» для получения подробной информации.

Обновление: «Элементы» случается покрова в деталях точно вопросы , которые вы просите здесь, в том числе то , что вы написали в своем обновлении. Соответствующий раздел - 4.3, и, в частности, 4.3.2-4.3.3.

(2) и как два подхода связаны друг с другом?

Они, конечно, делают. То, что вы называете «байесовским» подходом, является более общим и предполагает только гауссовы распределения для каждого класса. Ваша функция правдоподобия - это, по сути, расстояние Махаланобиса от до центра каждого класса.x

Вы, конечно, правы, что для каждого класса это линейная функция от . Однако обратите внимание, что отношение правдоподобий для двух разных классов (которые вы собираетесь использовать для выполнения фактической классификации, то есть выбора между классами) - это соотношение не будет линейным по если разные классы имеют разные ковариационные матрицы. На самом деле, если определить границы между классами, они оказываются квадратичными, поэтому это также называется квадратичным дискриминантным анализом , QDA.хxx

Важное понимание заключается в том, что уравнения значительно упрощаются, если допустить, что все классы имеют одинаковую ковариацию [ Обновление: если вы предполагали это все время, это могло быть частью недоразумения] . В этом случае границы принятия решений становятся линейными, и поэтому эта процедура называется линейным дискриминантным анализом, LDA.

Требуются некоторые алгебраические манипуляции, чтобы понять, что в этом случае формулы фактически становятся точно эквивалентными тому, что Фишер разработал, используя его подход. Думайте об этом как математическая теорема. См. Учебник Хасти для всей математики.

(1) Можем ли мы уменьшить размерность, используя байесовский подход?

Если под «байесовским подходом» вы имеете в виду работу с различными ковариационными матрицами в каждом классе, то нет. По крайней мере, это не будет линейным уменьшением размерности (в отличие от LDA), из-за того, что я написал выше.

Однако, если вы счастливы принять общую ковариационную матрицу, то да, конечно, потому что «байесовский подход» просто эквивалентен LDA. Однако, если вы проверите Hastie 4.3.3, вы увидите, что не дает правильных проекций, как вы написали (я даже не понимаю, что это должно означать: эти проекции зависят от , и что обычно подразумевается под проекцией, это способ проецировать все точки из всех классов на одно и то же низкоразмерное многообразие), но с помощью первых [обобщенных] собственных векторов из , где - ковариационная матрица центроидов классов . кΣ1μkkΣ1MMμk

амеба
источник
1
+1. Я мог бы также сослаться на свой собственный ответ с упоминанием QDA stats.stackexchange.com/a/71571/3277 .
ttnphns
+1 за часть решения моего вопроса 2). Я знаю, что, выполняя анализ дисперсии между ними , я мог бы найти лучшие направления для проецирования исходной переменной и получения этих дискриминантов. Сейчас я борюсь с тем, могу ли я найти эти проекционные направления, используя байесовский метод, не обращаясь к соотношению между-внутри-дисперсии ? X
авокадо
@loganecolss: Как я уже сказал, вы должны допустить, что все классы имеют одинаковую ковариационную матрицу! Затем, начиная с вашего байесовского подхода + этого предположения, вы можете получить стандартные прогнозы LDA. Идея состоит в диагонализации . Это подробно описано в разделе «Элементы статистического обучения», раздел 4.3. Σ
амеба
Я прочитаю этот раздел позже. Как вы сказали, предполагая, что все классы имеют одинаковую ковариационную матрицу, я могу получить функцию, которую я написал в своем посте , верно? И действительно линейная функция от , и, согласно вашему комментарию, должна быть матрицей проекции LDA? f k ( x ) x Σ - 1 µ kfk(x)fk(x)xΣ1μk
авокадо
Я обновляю свой пост, добавляя клип из раздела 4.3
авокадо