Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X Y
Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если являются собственными векторами ковариационной матрицы с верхними собственными значениями, то являются верхними главными компонентами с максимальными отклонениями. Таким образом, мы можем уменьшить число функций до и сохранить большую часть предсказательной силы, насколько я понимаю.
Но почему старшие компонентов сохраняют предсказательную силу ?
Если говорить об общих олах , нет никаких оснований полагать , что если функция имеет максимальную дисперсию, то имеет самый прогностическую силу на .
Обновление после просмотра комментариев: я думаю, я видел множество примеров использования PCA для уменьшения размерности. Я предполагал, что это означает, что измерения, с которыми мы остались, имеют наибольшую предсказательную силу. Иначе в чем смысл уменьшения размерности?
Ответы:
Действительно, нет никакой гарантии, что главные главные компоненты (ПК) обладают большей предсказательной способностью, чем компоненты с малой дисперсией.
Примеры из реальной жизни можно найти там, где это не так, и легко создать искусственный пример, когда, например, только самый маленький ПК имеет какое-либо отношение к вообще.Y
Эта тема много обсуждалась на нашем форуме, и в связи с (к сожалению) отсутствием одной явно канонической темы я могу привести только несколько ссылок, которые вместе предоставляют различные примеры из реальной жизни, а также искусственные примеры:
И та же тема, но в контексте классификации:
Однако, на практике, верхние ПК часто вы часто имеют более предсказательную силу , чем с низким уровнем дисперсии из них, и , кроме того, с использованием только лучшие ПК могут дать более предсказательную силу , чем при использовании всех компьютеров.
В ситуациях с большим количеством предикторов и относительно небольшим количеством точек данных (например, когда или даже ), обычная регрессия будет более подходящей и должна быть упорядочена. Регрессия основного компонента (ПЦР) может рассматриваться как один из способов регуляризации регрессии и, как правило, дает превосходные результаты. Более того, это тесно связано с регрессией гребня, которая является стандартным способом регуляризации усадки. В то время как использование регрессии гребня обычно является лучшей идеей, ПЦР часто ведет себя достаточно хорошо. См. Почему работает усадка? для общего обсуждения о смещении дисперсии и о том, как усадка может быть полезной.n p ≈ n p > nп N p ≈ n р > н
В некотором смысле можно сказать, что как регрессия гребня, так и ПЦР предполагают, что большая часть информации о содержится в больших ПК , и это предположение часто оправдано.XY Икс
См. Более поздний ответ @cbeleites (+1) для некоторого обсуждения того, почему это предположение часто оправдано (а также этот более новый поток: почти всегда ли уменьшение размерности полезно для классификации? Для некоторых дальнейших комментариев).
Hastie et al. в разделе «Элементы статистического обучения» (раздел 3.4.1) прокомментируйте это в контексте регрессии гребня:
Смотрите мои ответы в следующих темах для деталей:
Нижняя граница
Для крупномасштабных задач предварительная обработка с PCA (что означает уменьшение размерности и сохранение только топовых ПК) может рассматриваться как один из способов регуляризации и часто улучшает результаты любого последующего анализа, будь то регрессия или метод классификации. Но нет никаких гарантий, что это сработает, и часто существуют более эффективные подходы к регуляризации.
источник
В дополнение к ответам, которые уже сосредоточены на математических свойствах, я хотел бы прокомментировать с экспериментальной точки зрения.
Резюме: процессы генерации данных часто оптимизируются таким образом, чтобы данные подходили для регрессии главных компонент (PCR) или частичных наименьших квадратов (PLS).
Я аналитик-химик. Когда я разрабатываю эксперимент / метод для измерения (регрессии или классификации) чего-либо, я использую свои знания о применении и доступных инструментах, чтобы получить данные, которые несут хорошее отношение сигнал / шум по отношению к поставленной задаче. Это означает, что сгенерированные мной данные имеют большую ковариацию со свойством интереса.
Это приводит к структуре дисперсии, где интересная дисперсия велика, и более поздние ПК будут нести только (маленький) шум.
Я бы также предпочел методы, которые дают избыточную информацию о выполняемой задаче, чтобы получить более надежные или более точные результаты. PCA концентрирует избыточные измерительные каналы в одном ПК, который затем несет большие различия и поэтому является одним из первых ПК.
Если существуют известные конфликтующие факторы, которые приведут к большой дисперсии, которая не связана с интересующим свойством, я обычно стараюсь исправить их в максимально возможной степени во время предварительной обработки данных: во многих случаях эти идентификаторы известны физическая или химическая природа, и это знание предлагает соответствующие способы исправления для нарушителей. Например, я измеряю спектры комбинационного рассеяния под микроскопом. Их интенсивность зависит от интенсивности лазерного излучения, а также от того, насколько хорошо я могу сфокусировать микроскоп. Оба приводят к изменениям, которые могут быть исправлены путем нормализации, например, сигнала, который, как известно, является постоянным.
Таким образом, крупные поставщики отклонений, которые не вносят вклад в решение, могли быть исключены до того, как данные поступили в PCA, оставляя в основном значимые различия на первых ПК.
И последнее, но не менее важное: здесь есть немного самореализующегося пророчества: очевидно, что ПЦР делается с данными, в которых допущение о большой дисперсии, несущей информацию, имеет смысл. Если, например, я думаю, что могут быть важные препятствия, которые я не знаю, как исправить, я бы сразу пошел на PLS, который лучше игнорирует большие вклады, которые не помогают с задачей прогнозирования.
источник
PCA иногда используется для исправления проблем, вызванных коллинеарными переменными, так что большая часть изменений в X-пространстве фиксируется K основными компонентами.
Но эта математическая проблема, конечно, не то же самое, что захватить большую часть вариаций в пространстве X, Y таким образом, чтобы необъяснимые вариации были как можно меньше.
Частичные наименьшие квадраты пытаются сделать это в последнем смысле:
http://en.wikipedia.org/wiki/Partial_least_squares_regression
источник
Как уже указывалось, нет прямой связи между верхними k собственными векторами и предсказательной силой. Выбирая вершину и используя их в качестве основы, вы сохраняете некоторую верхнюю энергию (или дисперсию вдоль этой оси).
Может быть так, что оси, объясняющие наибольшую дисперсию, на самом деле полезны для прогнозирования, но в целом это не так.
источник
Позвольте мне предложить одно простое объяснение.
PCA сводится к удалению определенных функций интуитивно. Это уменьшает шансы переоснащения.
источник