Как рассчитать из выборки R в квадрате?

10

Я знаю, что это, вероятно, обсуждалось где-то еще, но я не смог найти четкого ответа. Я пытаюсь использовать формулу для расчета вне выборки R 2 модели линейной регрессии, где S S R - это сумма квадратов невязок, а S S T - это общая сумма квадратов. Для тренировочного набора ясно, чтоR2=1SSR/SSTR2SSRSST

SST=Σ(yy¯train)2

А как насчет набора для тестирования? Должен ли я продолжать использовать для образца y или использовать вместо него ˉ y t e s t ?y¯trainyy¯test

Я обнаружил, что если я использую , результирующий R 2 иногда может быть отрицательным. Это согласуется с описанием функции sklearn , где они использовали ˉ y t e s t (которая также используется функцией их linear_model для тестирования образцов). Они утверждают, что «постоянная модель, которая всегда предсказывает ожидаемое значение y, независимо от входных характеристик, получит оценку R ^ 2 0,0».y¯testR2r2_score()y¯testscore()

Тем не менее, в других местах люди использовали как здесь и здесь (второй ответ dmi3kno). Так что мне было интересно, что имеет больше смысла? Любой комментарий будет с благодарностью!y¯train

crazydriver
источник

Ответы:

3

Ты прав.

2SST=Σ(yy¯train)2R2

user152317
источник
3
Хотя я исправил некоторые очевидные и некоторые очевидные ошибки из предыдущих правок, некоторые обозначения и некоторые предполагаемые значения все еще неясны.
Ник Кокс
Спасибо за ответ! Есть ли у вас какие-либо ссылки на это? Похоже, что программы для статистики обычно используют альтернативное определение, с y_test?
Матифу