Я знаю, что это, вероятно, обсуждалось где-то еще, но я не смог найти четкого ответа. Я пытаюсь использовать формулу для расчета вне выборки R 2 модели линейной регрессии, где S S R - это сумма квадратов невязок, а S S T - это общая сумма квадратов. Для тренировочного набора ясно, что
А как насчет набора для тестирования? Должен ли я продолжать использовать для образца y или использовать вместо него ˉ y t e s t ?
Я обнаружил, что если я использую , результирующий R 2 иногда может быть отрицательным. Это согласуется с описанием функции sklearn , где они использовали ˉ y t e s t (которая также используется функцией их linear_model для тестирования образцов). Они утверждают, что «постоянная модель, которая всегда предсказывает ожидаемое значение y, независимо от входных характеристик, получит оценку R ^ 2 0,0».r2_score()
score()
Тем не менее, в других местах люди использовали как здесь и здесь (второй ответ dmi3kno). Так что мне было интересно, что имеет больше смысла? Любой комментарий будет с благодарностью!
источник