У меня есть набор данных, состоящий из 10 переменных. Я запустил частичные наименьшие квадраты (PLS), чтобы предсказать одну переменную ответа по этим 10 переменным, извлек 10 компонентов PLS, а затем вычислил дисперсию каждого компонента. По исходным данным я взял сумму дисперсий всех переменных, которая составляет 702.
Затем я разделил дисперсию каждого из компонентов PLS на эту сумму, чтобы получить процент дисперсии, объясненный PLS, и, что удивительно, все компоненты вместе объясняют только 44% первоначальной дисперсии.
Чем это объясняется? Разве это не должно быть 100%?
Ответы:
Сумма отклонений всех компонентов PLS обычно составляет менее 100%.
Существует много вариантов частичных наименьших квадратов (PLS). Здесь вы использовали PLS-регрессию одномерной переменной ответа на несколько переменных ; этот алгоритм традиционно известен как PLS1 (в отличие от других вариантов, см. Rosipal & Kramer, 2006, Overview и Недавние достижения в области частично наименьших квадратов для краткого обзора). Позже было показано, что PLS1 эквивалентен более изящной формулировке, называемой SIMPLS (см. Ссылку на Paywalled Jong 1988 в Rosipal & Kramer). Представление, предоставленное SIMPLS, помогает понять, что происходит в PLS1.y X
Оказывается, что PLS1 делает, чтобы найти последовательность линейных проекций , такую что:ti=Xwi
Обратите внимание, что векторы веса не должны быть (и не являются) ортогональными.
Это означает, что если состоит из переменных и вы нашли компонентов PLS, то вы нашли неортогональный базис с некоррелированными проекциями на базисные векторы. Можно математически доказать , что в такой ситуации сумма отклонений всех этих прогнозов будет меньше , то общая дисперсия . Они были бы равны, если бы векторы весов были ортогональны (как, например, в PCA), но в PLS это не так.X k=10 10 X
Я не знаю ни одного учебника или статьи, в которой явно обсуждается эта проблема, но я ранее объяснил это в контексте линейного дискриминантного анализа (LDA), который также дает ряд некоррелированных проекций на векторы неортогональной единицы веса, см. Здесь : Доля объясненной дисперсии в PCA и LDA .
источник
PCTVAR
(процент дисперсии объяснен в X) не согласуется с вашими расчетами? Или вы спрашиваете о втором столбце (процент отклонения объяснен у)? В общем, если вы хотите заняться математикой PLS, я предлагаю вам начать читать статью Rosipal & Kramer и перейти по ссылкам.