Я нормализовал свой набор данных, а затем провел трехкомпонентный PCA, чтобы получить малые объясненные коэффициенты дисперсии ([0,50, 0,1, 0,05]).
Когда я не нормализовал, а отбелил набор данных, а затем провел трехкомпонентную PCA, я получил высокие объясненные коэффициенты дисперсии ([0,86, 0,06,0,01]).
Поскольку я хочу сохранить как можно больше данных в 3 компонента, я НЕ должен нормализовать данные? Насколько я понимаю, мы всегда должны нормализоваться перед PCA.
При нормализации: установка среднего значения на 0 и наличие единицы измерения.
Ответы:
Зависит от цели вашего анализа. Некоторые общие практики, некоторые из которых упоминаются в ссылке на whuber:
Интуитивно понятный пример:
Предположим, у вас есть две переменные: высота дерева и обхват одного и того же дерева. Мы преобразуем объем в фактор: дерево будет иметь большой объем, если его объем превышает 20 кубических футов, а в противном случае - низкий. Мы будем использовать набор данных деревьев, который предварительно загружен в R.
Теперь предположим, что высота была измерена в милях, а не в футах.
Первый компонент объясняет почти 100% изменчивости данных. Нагрузки:
Графическая оценка:
Мы видим, что деревья с большим объемом имеют тенденцию иметь высокий обхват дерева, но три высоты не дают никакой информации об объеме дерева. Это, вероятно, неправильно и является следствием двух разных единичных мер.
Мы могли бы использовать одни и те же единицы или стандартизировать переменные. Я ожидаю, что оба приведут к более сбалансированной картине изменчивости. Конечно, в этом случае можно утверждать, что переменные должны иметь одинаковую единицу, но не должны быть стандартизированы, что может быть допустимым аргументом, если бы мы не измеряли две разные вещи. (Когда мы будем измерять вес дерева и обхват дерева, масштаб, на котором должны измеряться оба, уже не очень ясен. В этом случае у нас есть четкий аргумент для работы со стандартизованными переменными.)
Теперь мы видим, что деревья, которые высокие и имеют большой обхват, имеют большой объем (нижний левый угол) по сравнению с низким обхватом и низкой высотой для деревьев с небольшим объемом (верхний правый угол). Это интуитивно понятно.
Однако, если присмотреться, мы видим, что контраст между высокой / низкой громкостью наиболее сильный в направлении обхвата, а не в направлении высоты. Давайте посмотрим, что происходит, когда мы стандартизируем:
Действительно, обхват теперь объясняет большую часть различий в деревьях с большим и низким объемом! (Длина стрелки в биплоте указывает на отклонение в исходной переменной.) Таким образом, даже если измерения измеряются в одном и том же масштабе, стандартизация может оказаться полезной. Не стандартизировать можно рекомендовать, когда мы, например, сравниваем длину разных видов деревьев, потому что это одно и то же измерение.
источник