Как рассчитать из выборки R в квадрате?

Я знаю, что это, вероятно, обсуждалось где-то еще, но я не смог найти четкого ответа. Я пытаюсь использовать формулу для расчета вне выборки модели линейной регрессии, где - это сумма квадратов невязок, а - это общая сумма квадратов. Для тренировочного набора ясно, что $R^2 = 1 - SSR/SST$ $R^2$ $SSR$ $SST$

S S T = Σ (y - {\bar{y}}_{t r a i n})^{2}

$SST = \Sigma (y - \bar{y}_{train})^2$

А как насчет набора для тестирования? Должен ли я продолжать использовать для образца или использовать вместо него ? $\bar{y}_{train}$ $y$ $\bar{y}_{test}$

Я обнаружил, что если я использую , результирующий иногда может быть отрицательным. Это согласуется с описанием функции sklearn , где они использовали (которая также используется функцией их linear_model для тестирования образцов). Они утверждают, что «постоянная модель, которая всегда предсказывает ожидаемое значение y, независимо от входных характеристик, получит оценку R ^ 2 0,0». $\bar{y}_{test}$ $R^2$ r2_score() $\bar{y}_{test}$ score()

Тем не менее, в других местах люди использовали как здесь и здесь (второй ответ dmi3kno). Так что мне было интересно, что имеет больше смысла? Любой комментарий будет с благодарностью! $\bar{y}_{train}$

regression machine-learning r-squared out-of-sample crazydriver
источник

Ответы:

Ты прав.

$^2$ $SST=Σ(y−\bar y_{train})^2$ $R^2$

user152317
источник

Хотя я исправил некоторые очевидные и некоторые очевидные ошибки из предыдущих правок, некоторые обозначения и некоторые предполагаемые значения все еще неясны.

Ник Кокс

Спасибо за ответ! Есть ли у вас какие-либо ссылки на это? Похоже, что программы для статистики обычно используют альтернативное определение, с y_test?

Матифу