Я пытаюсь найти информацию относительно предположений о регрессии PLS (одиночный ). Я особенно заинтересован в сравнении допущений PLS с регрессией OLS.
Я прочитал / пролистал много литературы по теме PLS; работы Вольда (Сванте и Германа), Абди и многих других, но не нашли удовлетворительного источника.
Wold et al. (2001) PLS-регрессия: основной инструмент хемометрики упоминает предположения о PLS, но упоминает только, что
- Xs не должны быть независимыми,
- система является функцией нескольких скрытых переменных,
- система должна демонстрировать однородность на протяжении всего аналитического процесса, и
- погрешность измерения в приемлема.
Нет никаких упоминаний о каких-либо требованиях к наблюдаемым данным или остаткам модели. Кто-нибудь знает об источнике, который обращается к любому из этого? Учитывая, что базовая математика аналогична PCA (с целью максимизации ковариации между и ), является ли многомерная нормальность предположением? Должны ли остатки модели демонстрировать однородность дисперсии?
Я также считаю, что где-то читал, что наблюдения не должны быть независимыми; что это значит с точки зрения повторных исследований?
Ответы:
В более общем смысле «допущения» - это то, что может иметь только теоретический результат (теорема).
Более того, фактический результат регрессии PLS зависит от того, сколько компонентов PLS включено в модель, которая действует как параметр регуляризации. Разговор о каких-либо предположениях имеет смысл, только если процедура выбора этого параметра полностью определена (а обычно это не так). Поэтому я не думаю, что есть какие-либо оптимальные результаты для PLS вообще, а это означает, что регрессия PLS не имеет никаких предположений. Я думаю, что то же самое верно для любых других наказанных методов регрессии, таких как регрессия основного компонента или регрессия гребня.
Обновление: я расширил этот аргумент в своем ответе на Каковы предположения о регрессии гребня и как их проверить?
Конечно, все еще могут быть практические правила, которые говорят, когда регрессия PLS, вероятно, будет полезна, а когда нет. Пожалуйста, смотрите мой ответ, связанный выше для некоторого обсуждения; опытные практикующие PLSR (я не один из них), безусловно, могли бы сказать больше об этом.
источник
Очевидно, PLS не делает «жестких» предположений о совместном распределении ваших переменных. Это означает, что вы должны быть осторожны, чтобы выбрать соответствующую статистику теста (я предполагаю, что это отсутствие зависимости от распределения переменных классифицирует PLS как непараметрический метод). Для соответствующей статистики я нашел следующие предложения: 1) использовать r-квадрат для зависимых скрытых переменных и 2) методы повторной выборки для оценки стабильности оценок.
Основное различие между OLS / MLS и PLS заключается в том, что первый тип обычно использует оценку максимального правдоподобия параметров совокупности для прогнозирования взаимосвязей между переменными, в то время как PLS оценивает значения переменных для истинной совокупности для прогнозирования взаимосвязей между группами переменных (связывая группы предикторов / переменные ответа со скрытыми переменными).
Я также заинтересован в проведении повторяющихся / повторных экспериментов, особенно многофакторных, однако я не уверен, как подойти к этому с помощью PLS.
Справочник по частичным наименьшим квадратам: концепции, методы и приложения (стр. 659, раздел 28.4)
Wold, H. 2006. Спецификация предиктора. Энциклопедия статистических наук. 9.
http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (страницы 4 и 5)
источник