Как центрирование данных избавляет от перехвата в регрессии и PCA?

41

Я продолжаю читать о случаях, когда мы центрируем данные (например, с помощью регуляризации или PCA), чтобы удалить перехват (как упомянуто в этом вопросе ). Я знаю, что это просто, но мне трудно понять это интуитивно. Может ли кто-нибудь предоставить интуицию или ссылку, которую я могу прочитать?

сельдь
источник
2
Это очень особый случай «контроля за другими переменными», как объяснялось (несколькими способами) на stats.stackexchange.com/questions/17336/… . Контролируемая «переменная» - это постоянный (перехваченный) член.
whuber

Ответы:

67

Могут ли эти картинки помочь?

Первые 2 картины о регрессии. Центрирование данных не изменяет наклон линии регрессии, но делает пересечение равным 0.

введите описание изображения здесь

1

введите описание изображения здесь


1

ttnphns
источник
1
Y¯-Икс¯β
17
PCA is maximizing varianceЭто не совсем так. PCA максимизирует (по 1-му ПК) сумму квадратов отклонений от начала координат. Только если данные были предварительно центрированы (само центрирование не является частью PCA), это максимизирует дисперсию.
ttnphns
3
PS Обратите внимание, что вычисление ковариаций или корреляций подразумевает центрирование
ttnphns
1
> PS Обратите внимание, что вычисление ковариаций или корреляций подразумевает центрирование - ttnphns 27 августа '12 в 11:47. Хотя я согласен с вашими другими комментариями, и ковариация, и корреляция НЕ подразумевают центрирование. Ни cor, ни covar не изменяют значение, когда к данным применяется аддитивная константа.
TPM
1
Это задом наперед. Аддитивные константы действительно не влияют на корреляции, но это потому, что они вычитаются в вычислениях, как указывал @ttphns. Кроме того, это не новый ответ, а комментарий. Мы понимаем, что у вас еще недостаточно репутации, чтобы комментировать, поэтому, я надеюсь, это будет перемещено пользователем с достаточной репутацией после того, как я его отмечу.
Ник Кокс