Понимание этого PCA графика продаж мороженого в зависимости от температуры

9

Я беру фиктивные данные о температуре и продажах мороженого и классифицирую их по K-средним (n кластеров = 2), чтобы выделить 2 категории (полностью фиктивные).

Сейчас я делаю анализ основных компонентов этих данных, и моя цель - понять, что я вижу. Я знаю, что цель PCA состоит в том, чтобы уменьшить размерность (очевидно, не в этом случае) и показать дисперсию элементов. Но как вы читаете график PCA ниже, то есть какую историю вы можете рассказать о температуре против мороженого на графике PCA? Что означают 1-й (X) и 2-й (Y) ПК?

введите описание изображения здесь

adhg
источник
1
Это должен быть комментарий, но у меня недостаточно репутации. Ссылка ниже является отличным учебником по PCA. В частности, «Игрушечный пример» обеспечивает хороший баланс между «достаточно простым, чтобы понять с одной картинкой» и «достаточно сложным, чтобы его можно было использовать в качестве аналогии в будущих задачах». Я думаю, что чтение этого может помочь понять, что PCA может и не может сделать для вас. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Джейсон

Ответы:

18

Я знаю, что цель PCA - уменьшить размерность

k k

очевидно, не в этом случае

Я не был бы так уверен в этом! Из вашего второго графика визуально выглядит, как много информации из ваших данных может быть спроецировано на горизонтальную линию. Это 1 измерение, а не оригинальный сюжет, который был в 2 измерениях! Очевидно, что вы теряете некоторую информацию, потому что вы удаляете ось Y, но приемлема ли эта потеря информации для вас, ваш звонок.

Существует множество вопросов, связанных с тем, что PCA находится на сайте, поэтому я рекомендую вам проверить их здесь , здесь , здесь или здесь . Если после этого у вас появятся другие вопросы, пожалуйста, напишите их, и я буду рад помочь.

Как ваш актуальный вопрос:

Какую историю вы можете рассказать о температуре против мороженого на графике PCA?

Поскольку новые оси координат представляют собой линейную комбинацию исходных координат, то ... в основном ничего! PCA даст вам ответ вроде (цифры составлены):

пС1знак равно2.5×мороженое-3,6×температурапС2знак равно-1,5×мороженое+0.6×температура

Это полезно для вас? Может быть. Но я думаю, нет :)

Edited

Я добавлю этот ресурс, который я считаю полезным, потому что интерактивные диаграммы - это круто.

Отредактировано снова

К

N>ККК К

ilanman
источник
6
Также обязательно масштабируйте переменные. В противном случае продажи (гораздо более высокие цифры) объяснят большинство отклонений. Вероятно, почему устройства в ваших компьютерах такие разные.
Филип
Хороший ответ, но ваше утверждение «... лучшие kk измерения, которые ваши данные могут быть представлены как ...», возможно, слишком обобщено. Направление максимальной дисперсии не обязательно полезно для разделения двух классов. Почему-то это часто работает хорошо, но не потому, что PCA делает все, чтобы сделать лучший выбор для конкретной цели.
Уэйн
«На самом деле PCA - это просто представление ваших данных на ортогональной основе». Меня постоянно удивляет тот факт, что многие люди не понимают этого
вопроса
5

К хорошему ответу Илана Ман я бы добавил, что существует довольно простая интерпретация ваших основных компонентов, хотя в этом простом 2D-случае это не добавляет много к тому, что мы могли бы интерпретировать, просто глядя на график рассеяния.

Первый ПК представляет собой взвешенную сумму (то есть линейную комбинацию, в которой оба коэффициента положительны) потребления температуры и мороженого. С правой стороны у вас жаркие дни, когда продается много мороженого, а с левой стороны у вас холодные дни, когда продается меньше мороженого. Этот компьютер объясняет большую часть вашей дисперсии, и группы, которые вы получаете, соответствуют этим двум сторонам.

Второй компьютер измеряет, как температура и потребление мороженого отходит от тесной линейной зависимости, подчеркнутой первым компьютером. В верхней части графика у нас есть дни с большим количеством проданного мороженого по сравнению с другими днями с той же температурой, а в дни с нижней частью с меньшим количеством проданного мороженого, чем ожидалось в зависимости от температуры. Этот компьютер объясняет лишь небольшую часть дисперсии.

То есть мы можем рассказать историю из основных компонентов, хотя с двумя переменными это та же самая история, которую мы могли бы заметить без PCA. С большим количеством переменных PCA становится более полезным, потому что он рассказывает истории, которые было бы труднее заметить иначе.

Pere
источник