Почему скорректированный R-квадрат меньше, чем R-квадрат, если скорректированный R-квадрат лучше предсказывает модель?

15

Насколько я понимаю, объясняет, насколько хорошо модель предсказывает наблюдение. Скорректированный - это тот, который учитывает больше наблюдений (или степеней свободы). Итак, Скорректированный предсказывает модель лучше? Тогда почему это меньше, чем ? Похоже, что часто должно быть больше.R2R2R2R2

user59756
источник

Ответы:

30

показывает линейную зависимость между независимыми переменными и зависимой переменной. Определяется как 1 - S S ER2 - сумма квадратов ошибок, деленная на общую сумму квадратов. SSTO=SSE+SSR,которые представляют собой общую ошибку и общую сумму квадратов регрессии. По мере добавления независимых переменныхSSRбудет продолжать расти (и посколькуSSTOфиксировано),SSEбудет снижаться, аR2будет непрерывно повышаться независимо от того, насколько ценны переменные, которые вы добавили.1SSESSTOSSTO=SSE+SSRSSRSSTOSSER2

Скорректированный пытается учесть статистическую усадку. Модели с тоннами предикторов имеют тенденцию работать лучше в выборке, чем при тестировании вне выборки. Скорректированный R 2 «штрафует» вас за добавление дополнительных переменных предиктора, которые не улучшают существующую модель. Это может быть полезно при выборе модели. Скорректированный R 2 будет равен R 2 для одной переменной предиктора. Когда вы добавляете переменные, он будет меньше, чем R 2 .R2R2R2R2R2

Эрик Петерсон
источник
Не ясно, как отрегулированный квадрат R достигает указанных свойств. То есть, что это за формула и как она вызывает свойства?
Алексей Войтенко
Adj R ^ 2 = 1 - ((n -1) / (n - k -1)) (1 - R ^ 2)
альпинист
Где k = # независимых переменных, n = # наблюдений
горный альпинист
Попытка объяснить статистическую усадку - возможно, для переоснащения?
Ричард Харди
-1

R ^ 2 объясняет пропорцию изменения вашей зависимой переменной (Y), объясненную вашими независимыми переменными (X) для модели линейной регрессии.

В то время как скорректированный R ^ 2 говорит, что доля вариации в вашей зависимой переменной (Y) объясняется более чем 1 независимой переменной (X) для модели линейной регрессии.

астха гупта
источник
1
Различие между «независимыми переменными» и «более чем 1 независимыми переменными» неясно. Кроме того, цитируя Энди снизу: «Вы действительно не добавляете новую информацию к тому, что было предоставлено ранее».
говорит амеба, восстановите Монику
-2

R-Squared увеличивается, даже когда вы добавляете переменные, которые не связаны с зависимой переменной, но отрегулированный R-Squared заботится об этом, так как он уменьшается всякий раз, когда вы добавляете переменные, которые не связаны с зависимой переменной, таким образом, после обработки это, вероятно, уменьшать.

КРИСТОФЕР MBOTWA
источник
3
Учитывая, что на этот вопрос уже есть принятый ответ, это должен быть скорее комментарий. Вы действительно не добавляете новую информацию к тому, что было предоставлено ранее.
Энди