Я следую учебному пособию здесь: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/, чтобы лучше понять PCA.
Учебное пособие использует набор данных Iris и применяет преобразование журнала до PCA:
Обратите внимание, что в следующем коде мы применяем логарифмическое преобразование к непрерывным переменным, как предложено в [1], и устанавливаем
center
иscale
равняемсяTRUE
при вызовеprcomp
для стандартизации переменных до применения PCA.
Может ли кто-нибудь объяснить мне на простом английском языке, почему вы сначала используете функцию log в первых четырех столбцах набора данных Iris. Я понимаю, что это как-то связано с тем, чтобы сделать данные относительными, но я не совсем понимаю, какова функция журнала, центра и масштаба.
Ссылка [1] выше относится к Venables и Ripley, Современная прикладная статистика с S-PLUS , раздел 11.1, в котором кратко сказано:
Данные являются физическими измерениями, поэтому разумной первоначальной стратегией является работа в логарифмическом масштабе. Это было сделано во всем.
источник
Ответы:
Набор данных радужной оболочки - хороший пример изучения PCA. Тем не менее, первые четыре столбца, описывающие длину и ширину чашелистика и лепестков, не являются примером сильно искаженных данных. Поэтому преобразование данных в журнал не сильно меняет результаты, поскольку результирующая ротация основных компонентов практически не изменяется при преобразовании журнала.
В других ситуациях лог-трансформация является хорошим выбором.
Мы выполняем PCA, чтобы получить представление об общей структуре набора данных. Мы центрируем, масштабируем и иногда лог-преобразовываем, чтобы отфильтровать некоторые тривиальные эффекты, которые могут доминировать в нашем PCA. Алгоритм PCA, в свою очередь, будет находить вращение каждого ПК для минимизации квадратов невязок, а именно суммы квадратов перпендикулярных расстояний от любого образца до ПК. Большие значения, как правило, имеют высокий левередж.
Представьте, что вы вводите два новых образца в данные радужной оболочки. Цветок с 430 см длиной лепестка и один с длиной лепестка 0,0043 см. Оба цветка очень ненормальные, в 100 раз больше и в 1000 раз меньше, чем в среднем. Рычаг первого цветка огромен, так что первые компьютеры в основном будут описывать различия между большим цветком и любым другим цветком. Кластеризация видов невозможна из-за этого выброса. Если данные лог-преобразованы, абсолютное значение теперь описывает относительное отклонение. Теперь маленький цветок - самый ненормальный. Тем не менее, можно одновременно содержать все образцы в одном изображении и обеспечить справедливую кластеризацию видов. Проверьте этот пример:
источник
Ну, другой ответ дает пример, когда лог-преобразование используется для уменьшения влияния экстремальных значений или выбросов.
Другой общий аргумент возникает, когда вы пытаетесь анализировать данные, которые мультипликативно составлены, а не аддитивно, - модели PCA и FA по их математике и таким аддитивным композициям. Multiplicativeкомпозиции встречаются в самом простом случае в физических данных, таких как поверхность и объем тел (функционально), зависящих (например) от трех параметров длина, ширина, глубина. Можно воспроизвести композиции исторического примера раннего PCA, я думаю, что это называется «проблема с шаром (или« кубиками »» Терстоуна »или тому подобное). Однажды я поиграл с данными этого примера и обнаружил, что преобразованные логарифмические данные дают гораздо более четкую и ясную модель для состава измеренных данных объема и поверхности с тремя одномерными измерениями.
Помимо таких простых примеров, если мы рассмотрим в данных социальных взаимодействий взаимодействие , то мы обычно думаем о них, а также мультипликативно составленные измерения более элементарных элементов. Так что, если мы рассмотрим конкретно взаимодействия, лог-преобразование может стать особым полезным инструментом для получения математической модели декомпозиции.
источник