Теория за частичной регрессией наименьших квадратов

33

Кто-нибудь может порекомендовать хорошее изложение теории за частичной регрессией наименьших квадратов (доступно онлайн) для тех, кто понимает SVD и PCA? Я просмотрел многие источники в Интернете и не нашел ничего, что имело бы правильное сочетание строгости и доступности.

zi=XφiyTziz T i z j = 0 i j φ iφi=1ziTzj=0яJгде выбираются итеративно в том порядке, в котором они максимизируют ковариацию. Но даже после всего, что я прочитал, я все еще не уверен, правда ли это, и если да, то как выполняется метод.φя

clarpaul
источник

Ответы:

38

Раздел 3.5.2 в «Элементах статистического обучения» полезен, потому что он помещает регрессию PLS в правильный контекст (других методов регуляризации), но он действительно очень краткий и оставляет некоторые важные утверждения в качестве упражнений. Кроме того, он рассматривает только случай одномерной зависимой переменной .Y

Литература по PLS обширна, но может быть довольно запутанной, поскольку существует много разных «разновидностей» PLS: одномерные версии с одним DV (PLS1) и многовариантные версии с несколькими DV Y (PLS2), симметричные версии, рассматривающие X и Y одинаково и асимметричные версии («регрессия PLS»), рассматривающие X как независимые и Y как зависимые переменные, версии, которые допускают глобальное решение через SVD, и версии, которые требуют итеративной дефляции для создания каждой следующей пары направлений PLS и т. д. и т. д.YYИксYИксY

Все это было разработано в области хемометрики и остается несколько оторванным от "основной" литературы по статистике или машинному обучению.

Обзорный документ, который я считаю наиболее полезным (и который содержит много дополнительных ссылок):

Для более теоретического обсуждения я могу порекомендовать:


Краткий учебник по регрессии PLS с одномерным (он же PLS1, он же SIMPLS)Y

Целью регрессии является оценка в линейной модели y = X β + ϵ . Решение OLS β = ( XX ) - 1 Xy обладает многими свойствами оптимальности, но может страдать от переоснащения. Действительно, OLS ищет β, который дает максимально возможную корреляцию X β с y . Если предикторов много, то всегда можно найти некоторую линейную комбинацию, которая, как оказалось, имеет высокую корреляцию с y . Это будет ложная корреляция, и такиеβYзнак равноИксβ+εβзнак равно(ИксИкс)-1ИксYβИксβYY ,правилоуказывают в направленииобъясняющей очень мало дисперсии в X . Направления, объясняющие очень малую дисперсию, часто являются очень «шумными». Если это так, то, хотя решение OLS для тренировочных данных работает отлично, при тестировании данных оно будет работать намного хуже.βИкс

Чтобы предотвратить переоснащение, используются методы регуляризации, которые по существу заставляют указывать на направления высокой дисперсии в X (это также называется «усадкой» β ; см. Почему работает усадка? ). Одним из таких методов является регрессия главных компонентов (ПЦР), которая просто отбрасывает все направления с низкой дисперсией. Другим (лучшим) методом является регрессия гребня, которая плавно штрафует направления с малой дисперсией. Еще один метод - PLS1.βИксβ

PLS1 заменяет цель OLS нахождения которая максимизирует корреляцию corr ( X β , y ), альтернативной целью нахождения β с длиной β = 1 максимизации ковариации cov ( X β , y ) corr ( X β , y ) βкорр(Иксβ,Y)β| |β| |знак равно1который снова эффективно штрафует направления низкой дисперсии.

сОУ(Иксβ,Y)~корр(Иксβ,Y)вар(Иксβ),

Нахождение такого (назовем его β 1 ) дает первый компонент PLS z 1 = X β 1 . Далее можно искать второй (а затем третий и т. Д.) Компонент PLS, который имеет максимально возможную ковариацию с y при условии отсутствия корреляции со всеми предыдущими компонентами. Это должно быть решено итеративно, так как не существует решения в замкнутой форме для всех компонентов (направление первого компонента β 1 просто определяется как Xyββ1Z1знак равноИксβ1Yβ1ИксYнормируется на единицу длины). Когда требуемое количество компонентов извлечено, регрессия PLS отбрасывает исходные предикторы и использует компоненты PLS в качестве новых предикторов; это дает некоторые их линейной комбинации , которые можно комбинировать со всеми β я с образованием конечного & beta ; P L S .βZβяβпLS

Обратите внимание, что:

  1. Если используются все компоненты PLS1, то PLS будет эквивалентен OLS. Таким образом, число компонентов служит параметром регуляризации: чем меньше число, тем сильнее регуляризация.
  2. Если предикторы некоррелированы и все имеют одинаковую дисперсию (т. Е. X был отбелен ), то существует только один компонент PLS1, и он эквивалентен OLS.ИксИкс
  3. Весовые векторы и β j для i j не будут ортогональными, но будут давать некоррелированные компоненты z i = X β i и z j = X β j .βяβJяJZязнак равноИксβяZJзнак равноИксβJ

Несмотря на все сказанное, мне неизвестны какие-либо практические преимущества регрессии PLS1 по сравнению с регрессией гребня (хотя последняя имеет много преимуществ: она непрерывна и не дискретна, имеет аналитическое решение, гораздо более стандартна, допускает расширения ядра и аналитику формулы для кросс-проверки ошибок одного и того же и т. д. и т. д.).


Цитируя Фрэнка и Фридмана:

RR, PCR и PLS рассматриваются в разделе 3, чтобы работать аналогичным образом. Их главная цель состоит в том, чтобы уменьшить вектор коэффициента решения от решения OLS к направлениям в пространстве переменных-предикторов с большим разбросом выборки. Видно, что ПЦР и PLS сжимаются в большей степени в сторону от направлений с низким разбросом, чем RR, что обеспечивает оптимальную усадку (среди линейных оценок) для предшествующего эквидистракции. Таким образом, PCR и PLS делают предположение, что правда, скорее всего, будет иметь конкретные преференциальные выравнивания с направлениями высокого разброса распределения предикатор-переменная (выборка). Несколько неожиданный результат состоит в том, что PLS (кроме того) помещает увеличенную массу вероятности в вектор истинного коэффициента, выравнивая направление го главного компонента, где KКК это количество используемых компонентов PLS, фактически расширяющих решение OLS в этом направлении.

Они также проводят обширное имитационное исследование и делают вывод (выделено мое):

Для ситуаций, рассматриваемых в этом исследовании, можно сделать вывод, что все смещенные методы (RR, PCR, PLS и VSS) обеспечивают существенное улучшение по сравнению с OLS. [...] Во всех ситуациях RR доминировал над всеми другими изученными методами. PLS обычно делал почти так же хорошо, как RR и обычно превосходил PCR, но не очень сильно.


Обновление: в комментариях @cbeleites (который работает в хемометрике) предлагает два возможных преимущества PLS перед RR:

  1. λ

  2. βррβяYYβ1,β2,βпLS

амеба говорит восстановить монику
источник
1
Эта статья выглядит полезной. Я не думаю, что речь идет о том, сколько переоснащение может быть вызвано PLS.
Фрэнк Харрелл
3
Правильно, @Frank, но, честно говоря, с точки зрения прогнозирования, я не вижу особого смысла делать что-либо, кроме регрессии гребня (или, возможно, эластичной сетки, если также требуется разреженность). Мой собственный интерес к PLS связан с уменьшением размерности, когда обаИкс а также Yмногомерны; поэтому меня не очень интересует, как PLS работает как метод регуляризации (по сравнению с другими методами регуляризации). Когда у меня есть линейная модель, которую мне нужно упорядочить, я предпочитаю использовать ридж. Интересно, какой у тебя опыт?
говорит амеба: восстанови монику
3
Мой опыт показывает, что гребень (квадратичная штрафная оценка максимальной вероятности) дает превосходные прогнозы. Я думаю, что некоторые аналитики считают, что PLS - это метод уменьшения размерности в смысле избежания переоснащения, но я понимаю, что это не так.
Фрэнк Харрелл
2
б) если вы хотите, скажем, спектроскопической интерпретации того, что делает модель, мне будет проще взглянуть на нагрузки PLS, какие вещества измеряются. Вы можете найти один или два вещества / классы веществ, там, где коэффициенты, которые включают все скрытые переменные, труднее интерпретировать, потому что спектральный вклад большего количества веществ комбинируется. Это более заметно, потому что применяются не все обычные правила спектральной интерпретации: модель PLS может выбирать некоторые полосы вещества, игнорируя другие. «Нормальная» интерпретация спектров использует большую часть этой полосы, может ...
cbeleites поддерживает Monica
2
... исходить из того или иного вещества. Если это то вещество, то должна быть эта другая полоса. Поскольку эта последняя возможность проверки вещества невозможна с помощью скрытых переменных / нагрузок / коэффициентов, интерпретировать вещи, которые изменяются вместе и поэтому оказываются в одной и той же скрытой переменной, намного проще, чем интерпретировать коэффициенты, которые уже суммируют все возможные виды "подсказок "которые известны по модели.
cbeleites поддерживает Монику
4

Да. Книга Германа Уолда « Теоретический эмпиризм: общее обоснование для создания научной модели» - единственное лучшее изложение PLS, о котором я знаю, особенно с учетом того, что Уолд является создателем этого подхода. Не говоря уже о том, что это просто интересная книга для чтения и изучения. Кроме того, благодаря поиску на Amazon, количество ссылок на книги на PLS, написанные на немецком языке, поражает воображение, но, возможно, причиной тому является подзаголовок книги Уолда.

Майк Хантер
источник
1
Это amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… связано, но охватывает гораздо больше, чем PLS
kjetil b halvorsen
Это правда, но основное внимание в книге уделено разработке Уолдом теории и применения PLS.
Майк Хантер