Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA.
Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по сравнению с этими другими методами, и для чего он может быть использован лучше? Зачем использовать LDA, если можно просто использовать, например, персептрон?
Ответы:
Как AdamO предлагает в вышеприведенном комментарии, вы не можете добиться большего успеха, чем читать главу 4 «Элементы статистического обучения» (которую я буду называть HTF), в которой сравнивается LDA с другими методами линейной классификации, приводится много примеров, а также обсуждается использование LDA как метод уменьшения размеров в духе PCA, который, как указывает ttnphns, довольно популярен.
С точки зрения классификации, я думаю, что ключевое отличие заключается в следующем. Представьте, что у вас есть два класса, и вы хотите их разделить. Каждый класс имеет функцию плотности вероятности. Наилучшей возможной ситуацией было бы, если бы вы знали эти функции плотности, потому что тогда вы могли бы предсказать, к какому классу будет принадлежать точка, оценивая специфичные для класса плотности в этой точке.
Некоторые виды классификаторов работают, находя приближение к функциям плотности классов. LDA является одним из них; это делает предположение, что плотности многомерные нормальные с той же ковариационной матрицей. Это сильное предположение, но если оно приблизительно верно, вы получите хороший классификатор. Многие другие классификаторы также используют такой подход, но стараются быть более гибкими, чем предполагать нормальность. Например, см. Страницу 108 HTF.
С другой стороны, на странице 210 HTF предупреждает:
Другой подход заключается в простом поиске границы между двумя классами, что и делает персептрон. Более сложной версией этого является машина опорных векторов. Эти методы также можно комбинировать с добавлением функций к данным, используя метод, называемый ядризацией. Это не работает с LDA, потому что это не сохраняет нормальность, но это не проблема для классификатора, который просто ищет разделяющую гиперплоскость.
Разница между LDA и классификатором, который ищет разделяющую гиперплоскость, подобна разнице между t-тестом и некоторой непараметрической альтернативой в обычной статистике. Последний является более устойчивым (например, к выбросам), но первый является оптимальным, если его предположения выполнены.
Еще одно замечание: возможно, стоит упомянуть, что у некоторых людей могут быть культурные причины для использования таких методов, как LDA или логистическая регрессия, которые могут принудительно выбрасывать таблицы ANOVA, тесты гипотез и обнадеживать подобные вещи. LDA был изобретен Фишером; Первоначально перцептрон был моделью для нейрона человека или животного и не имел отношения к статистике. Это также работает по-другому; некоторые люди могут предпочесть такие методы, как машины опорных векторов, потому что у них есть своего рода ультрасовременный кредит, которому методы двадцатого века просто не могут соответствовать. Это не значит, что они лучше. (Хороший пример этого обсуждается в « Машинном обучении для хакеров» , если я правильно помню.)
источник
Для интуиции рассмотрим этот случай:
Линия представляет «оптимальную границу» между двумя классами o и x.
LDA пытается найти гиперплоскость, которая минимизирует межкластерную дисперсию и максимизирует внутрикластерную дисперсию, а затем принимает границу, чтобы быть ортогональной этой гиперплоскости. Здесь это, вероятно, не будет работать, потому что кластеры имеют большую дисперсию в одном направлении.
Перцептрон, с другой стороны, может иметь больше шансов найти хорошую разделяющую гиперплоскость.
В случае классов с гауссовым распределением, однако, LDA, вероятно, будет работать лучше, поскольку перцептрон находит только разделяющую гиперплоскость, которая согласуется с данными, без предоставления гарантий относительно того, какую гиперплоскость он выбирает (может быть бесконечное число согласованных гиперплоскостей). Однако более сложные версии персептрона могут выбрать гиперплоскость с некоторыми оптимальными свойствами, такими как максимизация разрыва между классами (это, по сути, то, что делают машины опорных векторов).
Также обратите внимание, что как LDA, так и персептрон могут быть расширены до нелинейных границ принятия решений с помощью трюка ядра .
источник
Одно из самых больших различий между LDA и другими методами заключается в том, что это просто метод машинного обучения для данных, которые предполагается нормально распределенными. Это может быть здорово в случае отсутствия данных или усечения, когда вы можете использовать алгоритм EM для максимизации вероятности при очень странных и / или интересных обстоятельствах. Пусть покупатель будет бдительно , потому что модель misspecifications, такие как мультимодальные данные, может привести к плохим исполняющим предсказаниям , где K-средства кластеризации сделали бы лучше. Мультимодальные данные также могут быть учтены с помощью EM для обнаружения скрытых переменных или кластеризации в LDA.
Например, предположим, что вы пытаетесь измерить вероятность установления положительного диагноза СПИДа через 5 лет на основе количества CD4. Предположим далее, что вы не знаете значение определенного биомаркера, который сильно влияет на количество CD4 и связан с дальнейшей иммуносупрессией. В большинстве доступных анализов количество CD4 до 400 ниже нижнего предела обнаружения. Алгоритм EM позволяет нам итеративно вычислять назначение LDA и биомаркера, а также среднее значение и ковариацию для CD4 для неусеченного DF.
источник