Я беру фиктивные данные о температуре и продажах мороженого и классифицирую их по K-средним (n кластеров = 2), чтобы выделить 2 категории (полностью фиктивные).
Сейчас я делаю анализ основных компонентов этих данных, и моя цель - понять, что я вижу. Я знаю, что цель PCA состоит в том, чтобы уменьшить размерность (очевидно, не в этом случае) и показать дисперсию элементов. Но как вы читаете график PCA ниже, то есть какую историю вы можете рассказать о температуре против мороженого на графике PCA? Что означают 1-й (X) и 2-й (Y) ПК?
Ответы:
Я не был бы так уверен в этом! Из вашего второго графика визуально выглядит, как много информации из ваших данных может быть спроецировано на горизонтальную линию. Это 1 измерение, а не оригинальный сюжет, который был в 2 измерениях! Очевидно, что вы теряете некоторую информацию, потому что вы удаляете ось Y, но приемлема ли эта потеря информации для вас, ваш звонок.
Существует множество вопросов, связанных с тем, что PCA находится на сайте, поэтому я рекомендую вам проверить их здесь , здесь , здесь или здесь . Если после этого у вас появятся другие вопросы, пожалуйста, напишите их, и я буду рад помочь.
Как ваш актуальный вопрос:
Поскольку новые оси координат представляют собой линейную комбинацию исходных координат, то ... в основном ничего! PCA даст вам ответ вроде (цифры составлены):
Это полезно для вас? Может быть. Но я думаю, нет :)
Edited
Я добавлю этот ресурс, который я считаю полезным, потому что интерактивные диаграммы - это круто.
Отредактировано снова
источник
К хорошему ответу Илана Ман я бы добавил, что существует довольно простая интерпретация ваших основных компонентов, хотя в этом простом 2D-случае это не добавляет много к тому, что мы могли бы интерпретировать, просто глядя на график рассеяния.
Первый ПК представляет собой взвешенную сумму (то есть линейную комбинацию, в которой оба коэффициента положительны) потребления температуры и мороженого. С правой стороны у вас жаркие дни, когда продается много мороженого, а с левой стороны у вас холодные дни, когда продается меньше мороженого. Этот компьютер объясняет большую часть вашей дисперсии, и группы, которые вы получаете, соответствуют этим двум сторонам.
Второй компьютер измеряет, как температура и потребление мороженого отходит от тесной линейной зависимости, подчеркнутой первым компьютером. В верхней части графика у нас есть дни с большим количеством проданного мороженого по сравнению с другими днями с той же температурой, а в дни с нижней частью с меньшим количеством проданного мороженого, чем ожидалось в зависимости от температуры. Этот компьютер объясняет лишь небольшую часть дисперсии.
То есть мы можем рассказать историю из основных компонентов, хотя с двумя переменными это та же самая история, которую мы могли бы заметить без PCA. С большим количеством переменных PCA становится более полезным, потому что он рассказывает истории, которые было бы труднее заметить иначе.
источник