LDA против персептрона

9

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA.

Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по сравнению с этими другими методами, и для чего он может быть использован лучше? Зачем использовать LDA, если можно просто использовать, например, персептрон?

Creatron
источник
1
Я думаю, вы можете быть смущены тем, что такое контролируемое обучение. K-means - это алгоритм кластеризации обучения без контроля. Perceptron - это контролируемый алгоритм классификации обучения, который пытается найти гиперплоскость, которая отделяет отрицательные и положительные наблюдения. LDA - это метод, который может использоваться для контролируемой классификации, но чаще используется для выбора контролируемых признаков. См. Ответ @ AdamO для предположений классификатора LDA.
Побитовое
@ Впрочем, упс! Я не знаю, почему я положил K-средства там. Да, это неконтролируемый алгоритм. Я удалю это в редактировании.
Creatron
@Bitwise Что касается того, что вы сказали о LDA и Perceptron, да, это то, что смущает меня. LDA пытается найти гиперплоскость, на которую можно проецировать ваши данные, чтобы она максимизировала межкластерную дисперсию, минимизируя внутрикластерную дисперсию. Тогда на границе у вас есть классификатор. Перцептрон делает нечто подобное в том смысле, что он также пытается найти оптимальную гиперплоскость, чтобы отделить помеченные данные. Так зачем использовать один над другим?
Creatron

Ответы:

15

Как AdamO предлагает в вышеприведенном комментарии, вы не можете добиться большего успеха, чем читать главу 4 «Элементы статистического обучения» (которую я буду называть HTF), в которой сравнивается LDA с другими методами линейной классификации, приводится много примеров, а также обсуждается использование LDA как метод уменьшения размеров в духе PCA, который, как указывает ttnphns, довольно популярен.

С точки зрения классификации, я думаю, что ключевое отличие заключается в следующем. Представьте, что у вас есть два класса, и вы хотите их разделить. Каждый класс имеет функцию плотности вероятности. Наилучшей возможной ситуацией было бы, если бы вы знали эти функции плотности, потому что тогда вы могли бы предсказать, к какому классу будет принадлежать точка, оценивая специфичные для класса плотности в этой точке.

Некоторые виды классификаторов работают, находя приближение к функциям плотности классов. LDA является одним из них; это делает предположение, что плотности многомерные нормальные с той же ковариационной матрицей. Это сильное предположение, но если оно приблизительно верно, вы получите хороший классификатор. Многие другие классификаторы также используют такой подход, но стараются быть более гибкими, чем предполагать нормальность. Например, см. Страницу 108 HTF.

С другой стороны, на странице 210 HTF предупреждает:

Если классификация является конечной целью, то изучение плотности отдельных классов может быть ненужным и может фактически вводить в заблуждение.

Другой подход заключается в простом поиске границы между двумя классами, что и делает персептрон. Более сложной версией этого является машина опорных векторов. Эти методы также можно комбинировать с добавлением функций к данным, используя метод, называемый ядризацией. Это не работает с LDA, потому что это не сохраняет нормальность, но это не проблема для классификатора, который просто ищет разделяющую гиперплоскость.

Разница между LDA и классификатором, который ищет разделяющую гиперплоскость, подобна разнице между t-тестом и некоторой непараметрической альтернативой в обычной статистике. Последний является более устойчивым (например, к выбросам), но первый является оптимальным, если его предположения выполнены.

Еще одно замечание: возможно, стоит упомянуть, что у некоторых людей могут быть культурные причины для использования таких методов, как LDA или логистическая регрессия, которые могут принудительно выбрасывать таблицы ANOVA, тесты гипотез и обнадеживать подобные вещи. LDA был изобретен Фишером; Первоначально перцептрон был моделью для нейрона человека или животного и не имел отношения к статистике. Это также работает по-другому; некоторые люди могут предпочесть такие методы, как машины опорных векторов, потому что у них есть своего рода ультрасовременный кредит, которому методы двадцатого века просто не могут соответствовать. Это не значит, что они лучше. (Хороший пример этого обсуждается в « Машинном обучении для хакеров» , если я правильно помню.)

Flounderer
источник
«Некоторые люди могут предпочесть такие методы, как машины опорных векторов, потому что у них есть своеобразный хипстерский кредит, которому методы двадцатого века просто не могут соответствовать» ЛОЛ! Это точно. Кстати, у вас есть умение объяснять вещи очень четко и точно. Спасибо! Мне нужна была «карта» о том, как все складывается вместе, а вы ее предоставили.
Creatron
2

Для интуиции рассмотрим этот случай:

введите описание изображения здесь

Линия представляет «оптимальную границу» между двумя классами o и x.

LDA пытается найти гиперплоскость, которая минимизирует межкластерную дисперсию и максимизирует внутрикластерную дисперсию, а затем принимает границу, чтобы быть ортогональной этой гиперплоскости. Здесь это, вероятно, не будет работать, потому что кластеры имеют большую дисперсию в одном направлении.

Перцептрон, с другой стороны, может иметь больше шансов найти хорошую разделяющую гиперплоскость.

В случае классов с гауссовым распределением, однако, LDA, вероятно, будет работать лучше, поскольку перцептрон находит только разделяющую гиперплоскость, которая согласуется с данными, без предоставления гарантий относительно того, какую гиперплоскость он выбирает (может быть бесконечное число согласованных гиперплоскостей). Однако более сложные версии персептрона могут выбрать гиперплоскость с некоторыми оптимальными свойствами, такими как максимизация разрыва между классами (это, по сути, то, что делают машины опорных векторов).

Также обратите внимание, что как LDA, так и персептрон могут быть расширены до нелинейных границ принятия решений с помощью трюка ядра .

побитовое
источник
1

Одно из самых больших различий между LDA и другими методами заключается в том, что это просто метод машинного обучения для данных, которые предполагается нормально распределенными. Это может быть здорово в случае отсутствия данных или усечения, когда вы можете использовать алгоритм EM для максимизации вероятности при очень странных и / или интересных обстоятельствах. Пусть покупатель будет бдительно , потому что модель misspecifications, такие как мультимодальные данные, может привести к плохим исполняющим предсказаниям , где K-средства кластеризации сделали бы лучше. Мультимодальные данные также могут быть учтены с помощью EM для обнаружения скрытых переменных или кластеризации в LDA.

Например, предположим, что вы пытаетесь измерить вероятность установления положительного диагноза СПИДа через 5 лет на основе количества CD4. Предположим далее, что вы не знаете значение определенного биомаркера, который сильно влияет на количество CD4 и связан с дальнейшей иммуносупрессией. В большинстве доступных анализов количество CD4 до 400 ниже нижнего предела обнаружения. Алгоритм EM позволяет нам итеративно вычислять назначение LDA и биомаркера, а также среднее значение и ковариацию для CD4 для неусеченного DF.

Adamo
источник
Спасибо, Адам, хотя сейчас я в замешательстве. :-) Как лучше / хуже LDA, скажем, Персептрон или другая контролируемая методика обучения? Что касается алгоритма EM, вы используете его, говоря, что вы можете решить для LDA, используя алгоритм EM, правильно?
Creatron
1
@ AdamO, я хотел бы добавить для ясности, что LDA как метод сокращения данных не зависит от нормальности, как PCA. Нормальность в LDA - это предположение для 1) статистического тестирования (тест Бокса М и т. Д.), 2) классификации.
ttnphns
@ttnphns, предполагающий нормальность, означает, что LDA - это техника ML. ML это хорошая вещь. Особые предостережения в примере, который я упомянул, используют ML для решения сложных проблем. Эти решения были бы возможны только при сложном моделировании и / или ошибках.
AdamO
@TheGrapeBeyond LDA максимизирует расстояние Махала между двумя группами. SLP (однослойный персептрон или nnet) рисует гиперплоскость в пространстве признаков, что создает максимальную точность классификации ... Я думаю. Хорошей отправной точкой является чтение книги Tibs / Hastie. Я, возможно, должен освежить это сам.
AdamO