Основная идея при использовании PCA в качестве инструмента для выбора признаков заключается в выборе переменных в соответствии с величиной (от наибольшего до наименьшего в абсолютных значениях) их коэффициентов ( нагрузок ). Вы можете вспомнить, что PCA стремится заменить (более или менее коррелированные) переменные на некоррелированных линейных комбинаций (проекций) исходных переменных. Давайте проигнорируем, как выбрать оптимальное для рассматриваемой задачи. Эти главных компонентов ранжируются по важности через их объясненную дисперсию, и каждая переменная вносит вклад с различной степенью для каждого компонента. Использование критерия наибольшей дисперсии сродни извлечению признаковpk<pkk где главный компонент используется как новые функции, а не исходные переменные. Тем не менее, мы можем решить оставить только первый компонент и выбрать переменные которые имеют самый высокий абсолютный коэффициент; число может быть основано на пропорции количества переменных (например, оставить только верхние 10% от переменных) или фиксированного среза (например, с учетом порога для нормализованных коэффициентов). Этот подход имеет некоторое сходство с оператором Лассо в регрессии (или регрессии PLS ). Однако ни значение , ни количество сохраняемых компонентов не являются очевидными вариантами.j<pjpj
Проблема с использованием PCA состоит в том, что (1) измерения от всех исходных переменных используются в проекции на нижнее размерное пространство, (2) рассматриваются только линейные отношения, и (3) методы, основанные на PCA или SVD, также в качестве одномерных методов скрининга (t-критерий, корреляция и т. д.) не учитывается потенциальная многомерная природа структуры данных (например, взаимодействие между переменными более высокого порядка).
Что касается пункта 1, были предложены некоторые более сложные методы скрининга, например, анализ основных признаков или ступенчатый метод, например, метод, используемый для « генного бритья » в исследованиях экспрессии генов. Кроме того, разреженный PCA может использоваться для выполнения уменьшения размера и выбора переменных на основе результирующих переменных нагрузок. Что касается пункта 2, то можно использовать ядро PCA (используя трюк ядра ), если нужно встроить нелинейные отношения в пространство более низкого измерения. Деревья решений , или, лучше, алгоритм случайного леса , вероятно, лучше способны решить пункт 3. Последний позволяет вывести меры переменной Джини или перестановки переменной важности .
Последний пункт: если вы намереваетесь выполнить выбор объекта до применения модели классификации или регрессии, обязательно перекрестная проверка всего процесса (см. § 7.10.2 « Элементы статистического обучения» , или « Амбруаз и МакЛахлан», 2002 ).
Поскольку вы, похоже, заинтересованы в R-решении, я бы порекомендовал взглянуть на пакет Caret , который включает в себя множество удобных функций для предварительной обработки данных и выбора переменных в контексте классификации или регрессии.
Учитывая набор из N признаков, анализ PCA будет производить (1) линейную комбинацию признаков с наибольшей дисперсией (первый компонент PCA), (2) линейную комбинацию с наибольшей дисперсией в подпространстве, ортогональном первому компоненту PCA и т. Д. (при условии, что коэффициенты комбинации образуют вектор с единичной нормой) Является ли линейная комбинация с максимальной дисперсией «хорошей» характеристикой, действительно зависит от того, что вы пытаетесь предсказать. По этой причине я бы сказал, что быть компонентом PCA и быть «хорошими» функциями - это (в общем) два не связанных понятия.
источник
Нельзя упорядочить объекты в соответствии с их дисперсией, поскольку дисперсия, используемая в PCA, в основном является многомерной сущностью. Вы можете упорядочить объекты только путем проекции отклонения в определенном выбранном направлении (которое обычно является первой главной компнонетой). Другими словами, от того, будет ли объект больше дисперсии, чем другого, зависит от того, как вы выберете направление проекции.
источник