Кристофер Бишоп пишет в своей книге « Распознавание образов и машинное обучение», доказывая, что каждый последовательный главный компонент максимизирует дисперсию проекции в одно измерение после того, как данные были спроецированы в ортогональное пространство для ранее выбранных компонентов. Другие показывают аналогичные доказательства.
Однако это только доказывает, что каждый последующий компонент является наилучшей проекцией в одно измерение с точки зрения максимизации дисперсии. Почему это означает, что дисперсия проекции, скажем, 5 измерений, максимальна при выборе первых таких компонентов?
Ответы:
То, что понимается под дисперсией в нескольких измерениях («общая дисперсия»), является просто суммой дисперсий в каждом измерении. Математически это след ковариационной матрицы: след просто сумма всех диагональных элементов. Это определение имеет различные приятные свойства, например, трасса инвариантна относительно линейных ортогональных преобразований, что означает, что если вы поворачиваете свои оси координат, общая дисперсия остается неизменной.
В книге Бишопа (раздел 12.1.1) доказано, что ведущий собственный вектор ковариационной матрицы задает направление максимальной дисперсии. Второй собственный вектор задает направление максимальной дисперсии при дополнительном ограничении на то, что он должен быть ортогональным первому собственному вектору и т. Д. (Я считаю, что это составляет упражнение 12.1). Если цель состоит в том, чтобы максимизировать общую дисперсию в двумерном подпространстве, то эта процедура является жадной максимизацией: сначала выберите одну ось, которая максимизирует дисперсию, а затем другую.
Ваш вопрос: почему эта жадная процедура получает глобальный максимум?
Вот хороший аргумент, который @whuber предложил в комментариях. Давайте сначала совместим систему координат с осями PCA. Ковариационная матрица становится диагональной: . Для простоты рассмотрим тот же 2D-случай, т. Е. Что такое плоскость с максимальной полной дисперсией? Мы хотим доказать, что это плоскость, заданная первыми двумя базисными векторами (с полной дисперсией ).Σ=diag(λi) λ1+λ2
Рассмотрим плоскость, натянутую на два ортогональных вектора и . Общая дисперсия в этой плоскости равнаТаким образом, это линейная комбинация собственных значений с коэффициентами, которые все положительны, не превышают (см. Ниже) и суммируют до . Если это так, то почти очевидно, что максимум достигается в .u v
Осталось только показать, что коэффициенты не могут превышать . Обратите внимание, что , где является в -го базисного вектора. Эта величина является квадратом длины проекции на плоскость, натянутую на и . Поэтому он должен быть меньше квадрата длины который равен , QED.1 u2k+v2k=(u⋅k)2+(v⋅k)2 k k k u v k |k|2=1
См. Также ответ @ cardinal на Какова целевая функция PCA? (следует той же логике).
источник
Если у вас есть некоррелированных случайных величин, отсортированных в порядке убывания их дисперсии, и вас попросили выбрать из них так, чтобы дисперсия их суммы была максимизирована, согласитесь ли вы, что жадный подход выбора первых приведет этому?N k k
Данные, спроецированные на собственные векторы ее ковариационной матрицы, по существу представляют собой некоррелированных столбцов данных, дисперсия которых равна соответствующим собственным значениям.N
Чтобы интуиция была более ясной, нам нужно связать максимизацию дисперсии с вычислением собственного вектора ковариационной матрицы с наибольшим собственным значением и связать ортогональную проекцию с удалением корреляций.
Второе соотношение мне ясно, потому что коэффициент корреляции между двумя (нулевым средним) векторами пропорционален их внутреннему произведению.
Связь между максимизацией дисперсии и собственным разложением ковариационной матрицы следующая.
Предположим, что - это матрица данных после центрирования столбцов. Нам нужно найти направление максимальной дисперсии. Для любого единичного вектора дисперсия после проецирования вдоль равнаD v v
который максимизируется, если - собственный вектор соответствующий наибольшему собственному значению.v Cov(D)
источник