Если для уменьшения размерности (или преобразования после уменьшения размерности с помощью PCA) используется мультиклассовый линейный дискриминантный анализ (или я иногда также читаю множественный дискриминантный анализ), я понимаю, что в целом «нормализация по Z-шкале» (или стандартизация) Функции не будут необходимы, даже если они измерены в совершенно разных масштабах, правильно? Поскольку LDA содержит термин, подобный расстоянию Махаланобиса, которое уже подразумевает нормированные евклидовы расстояния?
Таким образом, это не только не является необходимым, но результаты после LDA для стандартизированных и нестандартизированных функций должны быть точно такими же !?
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Нет, это утверждение неверно. Проблема стандартизации с LDA такая же, как и в любом многомерном методе. Например, спс. Расстояние Махаланобиса не имеет ничего общего с этой темой.The issue of standardization with LDA is the same as in any multivariate method
. На самом деле, с LDA (в отличие от PCA, например) результаты не должны отличаться, независимо от того, центрированы ли вы (LDA внутренне всегда центрирует переменные, чтобы извлечь дискриминанты) или z-стандартизировали данные.Ответы:
Благодарность за этот ответ принадлежит @ttnphns, который объяснил все в комментариях выше. Тем не менее, я хотел бы предоставить расширенный ответ.
На ваш вопрос: результаты LDA для стандартизированных и нестандартизированных функций будут одинаковыми? --- ответ да . Сначала я приведу неформальный аргумент, а затем приступлю к математике.
Представьте, что двумерный набор данных показан в виде точечной диаграммы на одной стороне воздушного шара (исходное изображение воздушного шара взято отсюда ):
Здесь красные точки - один класс, зеленые точки - другой класс, а черная линия - граница класса LDA. Теперь масштабирование осей или соответствует растяжению воздушного шара по горизонтали или вертикали. Интуитивно понятно, что даже после того, как наклон черной линии изменится после такого растяжения, классы будут точно такими же отделимыми, как и раньше, и относительное положение черной линии не изменится. Каждое тестовое наблюдение будет относиться к тому же классу, что и до растяжения. Таким образом, можно сказать, что растяжение не влияет на результаты LDA.x y
Теперь математически LDA находит набор дискриминантных осей, вычисляя собственные векторы , где и находятся внутри и между классами. матрицы рассеяния. Эквивалентно, это обобщенные собственные векторы обобщенной задачи на собственные значения .W−1B W B Bv=λWv
Рассмотрим центрированную матрицу данных с переменными в столбцах и точками данных в строках, так что общая матрица рассеяния определяется как . Стандартизация данных сводится к масштабированию каждого столбца на определенное число, т.е. замену его на , где является диагональной матрицей с масштабными коэффициентами (обратными значениями стандартных отклонений каждого столбца) на диагонали. После такого масштабирования матрица рассеяния изменится следующим образом: , и то же преобразование произойдет сX T=X⊤X X Xnew=XΛ Λ Tnew=ΛTΛ Wnew и .Bnew
Пусть - собственный вектор исходной задачи, т.е.Если мы умножим это уравнение на слева и вставим с обеих сторон перед , мы получим т.е. что означает, чтоv
Таким образом, дискриминантная ось (заданная собственным вектором) изменится, но ее собственное значение, которое показывает, насколько разделены классы, останется точно таким же. Более того, проекция на эту ось, которая изначально была задана , теперь будет определяться как , т. е. также останутся такими же (возможно, до коэффициента масштабирования).Xv XΛ(Λ−1v)=Xv
источник