В « Статистических методах в атмосферных науках» Дэниел Уилкс отмечает, что множественная линейная регрессия может привести к проблемам, если между предикторами существуют очень сильные корреляции (3-е издание, стр. 559-560):
Патология, которая может возникнуть при множественной линейной регрессии, состоит в том, что набор переменных-предикторов, имеющих сильные взаимные корреляции, может привести к вычислению нестабильной регрессионной зависимости.
(...)
Затем он вводит регрессию основного компонента:
Подход к решению этой проблемы состоит в том, чтобы сначала преобразовать предикторы в их основные компоненты, корреляции между которыми равны нулю.
Все идет нормально. Но затем он делает некоторые заявления, которые он не объясняет (или, по крайней мере, недостаточно подробно для меня, чтобы понять):
Если все главные компоненты сохраняются в регрессии главных компонентов, то ничего не получается по сравнению с обычными наименьшими квадратами, подходящими для полного набора предикторов.
(..) и:
Можно повторно выразить регрессию основного компонента в терминах исходных предикторов, но в общем случае результат будет включать все исходные переменные предиктора, даже если использовался только один или несколько предикторов основного компонента. Эта восстановленная регрессия будет смещенной, хотя часто дисперсия намного меньше, что приводит к меньшему MSE в целом.
Я не понимаю эти два момента.
Конечно, если все основные компоненты сохраняются, мы используем ту же информацию, что и при использовании предикторов в их исходном пространстве. Однако проблема взаимных корреляций устраняется при работе в главном компонентном пространстве. У нас все еще может быть переоснащение, но разве это единственная проблема? Почему ничего не получается?
Во-вторых, даже если мы усекаем основные компоненты (возможно, для уменьшения шума и / или для предотвращения переоснащения), почему и как это приводит к предвзятой восстановленной регрессии? Предвзято каким образом?
Источник книги: Даниэль С. Уилкс, Статистические методы в науках об атмосфере, Третье издание, 2011. Международная серия геофизики, том 100, Academic Press.
источник
Ответы:
Что происходит, когда используются все ПК?
Если используются все ПК, то результирующие коэффициенты регрессии будут идентичны коэффициентам, полученным с помощью регрессии OLS, и поэтому эту процедуру лучше не называть «регрессия основного компонента». Это стандартная регрессия, выполняется только окольным путем.
Так что ничего не получено.
Что происходит, когда используется всего несколько компьютеров?
Это пример компромисса с отклонением . См. Почему работает усадка? для дальнейшего общего обсуждения.
Почему использование ПК с высокой дисперсией - это вообще хорошая идея?
Это не было частью вопроса, но вас может заинтересовать следующая ветка для дальнейшего чтения: Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?
источник