Почему все компоненты PLS вместе объясняют только часть дисперсии исходных данных?

У меня есть набор данных, состоящий из 10 переменных. Я запустил частичные наименьшие квадраты (PLS), чтобы предсказать одну переменную ответа по этим 10 переменным, извлек 10 компонентов PLS, а затем вычислил дисперсию каждого компонента. По исходным данным я взял сумму дисперсий всех переменных, которая составляет 702.

Затем я разделил дисперсию каждого из компонентов PLS на эту сумму, чтобы получить процент дисперсии, объясненный PLS, и, что удивительно, все компоненты вместе объясняют только 44% первоначальной дисперсии.

Чем это объясняется? Разве это не должно быть 100%?

regression pca covariance-matrix partial-least-squares Ресса
источник

Как я знаю на стороне ответа (y), что определяет количество компонентов PLS, является минимальным числом наблюдения. у меня 20 наблюдений. Но с другой стороны, у меня просто есть 10 независимых переменных, что ограничивает меня 10 PLS. Мой вопрос заключается в том, какова общая формула для расчета объясненной дисперсии по каждому компоненту (PLS или PCA).

Ресс

mathworks.com/help/stats/plsregress.html в этом примере имеется только одна переменная на стороне Y и вычисляется 10 компонентов.

Ресс

Сумма отклонений всех компонентов PLS обычно составляет менее 100%.

Существует много вариантов частичных наименьших квадратов (PLS). Здесь вы использовали PLS-регрессию одномерной переменной ответа на несколько переменных ; этот алгоритм традиционно известен как PLS1 (в отличие от других вариантов, см. Rosipal & Kramer, 2006, Overview и Недавние достижения в области частично наименьших квадратов для краткого обзора). Позже было показано, что PLS1 эквивалентен более изящной формулировке, называемой SIMPLS (см. Ссылку на Paywalled Jong 1988 в Rosipal & Kramer). Представление, предоставленное SIMPLS, помогает понять, что происходит в PLS1. $\mathbf y$ $\mathbf X$

Оказывается, что PLS1 делает, чтобы найти последовательность линейных проекций , такую что: $\mathbf t_i = \mathbf X \mathbf w_i$

Ковариантность между и максимальна; $\mathbf y$ $\mathbf t_i$
Все весовые векторы имеют единичную длину, ; $\|\mathbf w_i\|=1$
Любые два компонента PLS (иначе векторы оценок) и не коррелированы. $\mathbf t_i$ $\mathbf t_j$

Обратите внимание, что векторы веса не должны быть (и не являются) ортогональными.

Это означает, что если состоит из переменных и вы нашли компонентов PLS, то вы нашли неортогональный базис с некоррелированными проекциями на базисные векторы. Можно математически доказать , что в такой ситуации сумма отклонений всех этих прогнозов будет меньше , то общая дисперсия . Они были бы равны, если бы векторы весов были ортогональны (как, например, в PCA), но в PLS это не так. $\mathbf X$ $k=10$ $10$ $\mathbf X$

Я не знаю ни одного учебника или статьи, в которой явно обсуждается эта проблема, но я ранее объяснил это в контексте линейного дискриминантного анализа (LDA), который также дает ряд некоррелированных проекций на векторы неортогональной единицы веса, см. Здесь : Доля объясненной дисперсии в PCA и LDA .

амеба
источник

Спасибо и да, это имеет смысл. Я не знал, что векторы нагрузки (веса) не ортогональны. Таким образом, он не фиксирует максимальную дисперсию X. Следуя примеру с matlab, вы можете мне помочь, как я могу математически получить значения «PCTVAR» ?.

Ресс

Я не уверен, но я могу думать об этом. Первый столбец в PCTVAR(процент дисперсии объяснен в X) не согласуется с вашими расчетами? Или вы спрашиваете о втором столбце (процент отклонения объяснен у)? В общем, если вы хотите заняться математикой PLS, я предлагаю вам начать читать статью Rosipal & Kramer и перейти по ссылкам.

амеба

Почему все компоненты PLS вместе объясняют только часть дисперсии исходных данных?

Ответы:

Сумма отклонений всех компонентов PLS обычно составляет менее 100%.