Я нашел некоторые плюсы дискриминантного анализа, и у меня есть вопросы о них. Так:
Когда классы хорошо разделены, оценки параметров для логистической регрессии удивительно нестабильны. Коэффициенты могут уходить в бесконечность. LDA не страдает от этой проблемы.
Если число признаков мало и распределение предикторов приблизительно нормальное в каждом из классов, линейная дискриминантная модель снова более стабильна, чем модель логистической регрессии.
- Что такое стабильность и почему это важно? (Если логистическая регрессия обеспечивает хорошее соответствие, которое выполняет свою работу, то почему я должен заботиться о стабильности?)
LDA популярно, когда у нас более двух классов ответов, поскольку оно также обеспечивает низкоразмерные представления данных.
- Я просто не понимаю этого. Как LDA обеспечивает низкоразмерные представления?
- Если бы вы могли назвать больше плюсов или минусов, это было бы неплохо.
Ответы:
Если есть ковариатные значения, которые могут точно предсказать бинарный результат, то алгоритм логистической регрессии, то есть оценка Фишера, даже не сходится. Если вы используете R или SAS, вы получите предупреждение о том, что вероятности равны нулю и единице, и что алгоритм потерпел крах. Это крайний случай идеального разделения, но даже если данные разделены только в значительной степени и не идеально, оценка максимального правдоподобия может не существовать, и даже если она существует, оценки не являются надежными. Полученная посадка не очень хорошая. На этом сайте много тем, посвященных проблеме разделения, поэтому обязательно посмотрите.
Напротив, с дискриминантом Фишера не часто возникают проблемы с оценкой. Это все еще может произойти, если между или внутри ковариационной матрицы сингулярно, но это довольно редкий случай. На самом деле, если есть полное или почти полное разделение, тогда все будет лучше, потому что дискриминант с большей вероятностью будет успешным.
Стоит также отметить, что вопреки распространенному мнению, LDA не основывается на каких-либо предположениях о распространении. Мы только неявно требуем равенства ковариационных матриц населения, так как для внутренней ковариационной матрицы используется объединенная оценка. При дополнительных допущениях нормальности, равных априорных вероятностей и затрат на неправильную классификацию, LDA является оптимальным в том смысле, что минимизирует вероятность ошибочной классификации.
Это легче увидеть в случае двух групп населения и двух переменных. Вот графическое представление того, как LDA работает в этом случае. Помните, что мы ищем линейные комбинации переменных, которые максимизируют отделимость.
Следовательно, данные проецируются на вектор, направление которого лучше достигает этого разделения. То, как мы находим этот вектор, является интересной проблемой линейной алгебры, мы в основном максимизируем фактор Рэлея, но давайте пока оставим это в стороне. Если данные проецируются на этот вектор, размерность уменьшается с двух до одного.
Тем не менее, низкоразмерное представление не лишено недостатков, самым важным из которых, конечно же, является потеря информации. Это меньше проблем, когда данные линейно разделимы, но если они не являются, потеря информации может быть существенной, и классификатор будет работать плохо.
Также могут быть случаи, когда равенство ковариационных матриц не может быть приемлемым предположением. Вы можете использовать тест, чтобы убедиться, но эти тесты очень чувствительны к отклонениям от нормы, поэтому вам нужно сделать это дополнительное предположение, а также проверить его. Если будет установлено, что популяции нормальны с неравными ковариационными матрицами, вместо этого можно использовать правило квадратичной классификации (QDA), но я считаю, что это довольно неловкое правило, не говоря уже о противоинтуитивности в больших измерениях.
В целом, основным преимуществом LDA является наличие явного решения и удобство вычислений, что не относится к более продвинутым методам классификации, таким как SVM или нейронные сети. Цена, которую мы платим, - это набор допущений, а именно линейная отделимость и равенство ковариационных матриц.
Надеюсь это поможет.
РЕДАКТИРОВАТЬ : Я подозреваю, что мое утверждение о том, что LDA в конкретных случаях, которые я упомянул, не требует каких-либо распределительных допущений, кроме равенства ковариационных матриц, стоило мне снижения. Тем не менее, это не менее верно, поэтому позвольте мне быть более конкретным.
Можно показать, что решение этой задачи (с точностью до константы)
Это эквивалентно LDA, которое вы получаете в предположении нормальности, равных ковариационных матриц, неправильной классификации и предыдущих вероятностей, верно? Ну да, разве что теперь мы не приняли нормальность.
Ничто не мешает вам использовать вышеупомянутый дискриминант во всех настройках, даже если ковариационные матрицы на самом деле не равны. Он может быть неоптимальным в смысле ожидаемой стоимости ошибочной классификации (ECM), но это обучение под наблюдением, поэтому вы всегда можете оценить его эффективность, используя, например, процедуру задержки.
Ссылки
источник
LDA делает строгие предположения о распределении (многомерная нормальность всех предикторов) в отличие от логистической регрессии. Попробуйте получить последующие вероятности членства в классе на основе пола испытуемых, и вы поймете, что я имею в виду - вероятности не будут точными.
Смотрите это для получения дополнительной информации.
Заметим, что если выполняется многопараметрическая нормальность, то по теореме Байеса верны условия логистической регрессии. Обратное неверно.
Нормальность (или, по крайней мере, симметрия) должна почти соблюдаться, чтобы вариации и ковариации «выполняли свою работу». Не многовариантные нормально распределенные предикторы даже повредят дискриминантную фазу извлечения.
источник
Отказ от ответственности: то, что следует здесь, испытывает недостаток в математической строгости полностью.
Для того, чтобы хорошо соответствовать (нелинейной) функции, вам нужны наблюдения во всех областях функции, где «ее форма изменяется». Логистическая регрессия соответствует сигмоидальной функции данных:
В случае хорошо разделенных классов все наблюдения попадают на два «конца», где сигмоида приближается к своим асимптотам (0 и 1). Поскольку, так сказать, все сигмоиды «выглядят одинаково» в этих регионах, неудивительно, что алгоритм плохой подгонки будет испытывать трудности с поиском «правильного».
Давайте посмотрим на два (надеюсь, поучительных) примера, рассчитанных с помощью
glm()
функции R.Случай 1: две группы частично совпадают:
и наблюдения хорошо распределяются вокруг точки перегиба подогнанной сигмовидной кишки:
Вот эти параметры с хорошими низкими стандартными ошибками:
и отклонение тоже выглядит нормально:
Случай 2: две группы хорошо разделены:
и наблюдения все лежат на асимптотах практически.
glm()
Функция делала все возможное , чтобы соответствовать что - то, но жаловались на числовом 0 или 1 вероятности, потому что просто нет наблюдений , доступных для «получить форму сигмовидной права» вокруг его перегиба точки:Вы можете диагностировать проблему, отметив, что стандартные ошибки оценочных параметров проходят через крышу:
и в то же время отклонение выглядит подозрительно хорошим (потому что наблюдения хорошо соответствуют асимптотам):
По крайней мере, интуитивно должно быть ясно из этих соображений, почему «оценки параметров для логистической регрессии удивительно нестабильны».
источник