У меня есть 1000+ выборок из 19 переменных. Моя цель состоит в том, чтобы предсказать двоичную переменную на основе других 18 переменных (двоичной и непрерывной). Я вполне уверен, что 6 из прогнозирующих переменных связаны с двоичным ответом, однако я хотел бы дополнительно проанализировать набор данных и найти другие ассоциации или структуры, которые я мог бы пропустить. Для этого я решил использовать PCA и кластеризацию.
При запуске PCA для нормализованных данных оказывается, что необходимо сохранить 11 компонентов, чтобы сохранить 85% отклонения. При построении парных участков я получаю это:
Я не уверен в том, что будет дальше ... Я не вижу существенной закономерности в PCA, и мне интересно, что это значит, и могло ли это быть вызвано тем, что некоторые переменные являются двоичными. Запустив алгоритм кластеризации с 6 кластерами, я получаю следующий результат, который не совсем улучшается, хотя некоторые капли, кажется, выделяются (желтые).
Как вы, вероятно, можете сказать, я не эксперт по PCA, но видел некоторые учебные пособия и то, как это может быть полезным, чтобы увидеть структуры в многомерном пространстве. С известными наборами цифр MNIST (или IRIS) он отлично работает. У меня вопрос: что мне теперь делать, чтобы сделать PCA более понятным? Похоже, что кластеризация не дает ничего полезного, как я могу сказать, что в PCA нет шаблона или что мне следует попробовать, чтобы найти шаблоны в данных PCA?
Ответы:
Вы объяснили, что график отклонений говорит мне, что PCA здесь бессмысленна. 11/18 составляет 61%, поэтому вам нужно 61% ваших переменных, чтобы объяснить 85% дисперсии. На мой взгляд, дело не в PCA. Я использую PCA, когда 3-5 факторов из 18 объясняют 95% или около того дисперсии.
ОБНОВЛЕНИЕ: Посмотрите на график кумулятивного процента дисперсии, объясняемой количеством компьютеров. Это из области моделирования структуры срочной процентной ставки. Вы видите, как 3 компонента объясняют более 99% общей дисперсии. Это может выглядеть как вымышленный пример для рекламы PCA :) Однако это реальная вещь. Теноры процентных ставок настолько сильно коррелируют, поэтому PCA очень естественна в этом приложении. Вместо того, чтобы иметь дело с парой десятков теноров, вы имеете дело только с 3 компонентами.
источник
Если у вас выборок и только предикторов, было бы разумно просто использовать все предикторы в модели. В этом случае шаг PCA вполне может быть ненужным.р = 19N>1000 p=19
Если вы уверены, что только подмножество переменных действительно являются пояснительными, использование разреженной регрессионной модели, например, Elastic Net, может помочь вам установить это.
Кроме того, интерпретация результатов PCA с использованием входных данных смешанного типа (двоичные и действительные, различные шкалы и т. Д., См. Здесь вопрос CV ) не так проста, и вы можете избежать этого, если для этого нет явной причины.
источник
Я собираюсь объяснить ваш вопрос так кратко, как только смогу. Дайте мне знать, если это изменит ваше значение.
Я также не вижу никакой "существенной модели", кроме последовательности в ваших парных участках. Они все просто круглые капли. Мне любопытно, что вы ожидали увидеть. Ясно разделить точечные кластеры некоторые из парных участков? Несколько участков очень близки к линейным?
Результаты вашего PCA - блобоподобные парные диаграммы и только 85% дисперсии, зафиксированные в 11 главных компонентах, - не исключают, что ваши догадки о 6 переменных достаточны для прогнозирования бинарного отклика.
Представьте себе такие ситуации:
Скажем, результаты вашего PCA показывают, что 99% дисперсии охватываются 6 основными компонентами.
Может показаться, что это поддерживает вашу догадку о 6 переменных предиктора - возможно, вы могли бы определить плоскость или некоторую другую поверхность в этом 6-мерном пространстве, которая очень хорошо классифицирует точки, и вы могли бы использовать эту поверхность в качестве двоичного предиктора. Что подводит меня к номеру 2 ...
Скажем, у 6 ваших главных компонентов есть парные участки, которые выглядят так
Но давайте раскрасим произвольный двоичный ответ
Даже несмотря на то, что вам удалось собрать почти все (99%) дисперсии в 6 переменных, вам все равно не гарантируется пространственное разделение для прогнозирования вашего двоичного отклика.
На самом деле вам могут понадобиться несколько числовых порогов (которые могут быть нанесены в виде поверхностей в этом 6-мерном пространстве), и принадлежность точки к вашей двоичной классификации может зависеть от сложного условного выражения, составленного из отношения этой точки к каждому из этих порогов. Но это всего лишь пример того, как двоичный класс может быть предсказан. Существует множество структур данных и методов для представления, обучения и прогнозирования. Это тизер. Цитировать,
источник