Линейная регрессия, что говорит нам статистика F, квадрат R и остаточная стандартная ошибка?

14

Меня действительно смущает различие в значении относительно контекста линейной регрессии следующих терминов:

  • F статистика
  • R в квадрате
  • Остаточная стандартная ошибка

Я нашел эту веб-страницу, которая дала мне отличное понимание различных терминов, связанных с линейной регрессией, однако упомянутые выше термины выглядят довольно много (насколько я понимаю). Я процитирую то, что я прочитал и что меня смутило:

Остаточная стандартная ошибка - это мера качества соответствия линейной регрессии ........ Остаточная стандартная ошибка - это средняя величина, на которую отклик (dist) будет отклоняться от истинной линии регрессии.

1. Таким образом, это фактически среднее расстояние наблюдаемых значений от линии lm?

R-квадрат статистики показывает, насколько хорошо модель соответствует фактическим данным.

2. Теперь я запутался, потому что, если RSE говорит нам, как далеко наши наблюдаемые точки отклоняются от линии регрессии, низкий RSE фактически говорит нам, что «ваша модель хорошо согласуется на основе наблюдаемых точек данных» -> таким образом, насколько хороши наши модели подходят, так в чем же разница между R в квадрате и RSE?

F-статистика - хороший показатель того, существует ли связь между нашим предиктором и переменными ответа.

3. Верно ли, что мы можем иметь значение F, указывающее на сильные отношения, которые НЕ являются ЛИНЕЙНЫМИ, так что наш RSE высокий, а наш квадрат R низкий

KingBoomie
источник
Q 3 Fvalue не указывает на нелинейные отношения. Это соотношение, которое указывает, существует ли существенная (постоянная) связь между двумя переменными - зависимой и независимой.
Субхаш С. Давар
Это не говорит нам о природе отношений - нелинейных или линейных.
Субхаш С. Давар

Ответы:

12

Лучший способ понять эти термины - выполнить регрессионный расчет вручную. Я написал два тесно связанных ответа ( здесь и здесь ), однако они могут не полностью помочь вам понять ваш конкретный случай. Но все же прочитайте их. Возможно, они также помогут вам лучше понять эти термины.

р2р2рSЕ

  1. SSTоTaL
  2. SSреsяdUaL
  3. SSмоdеL

Каждый из них оценивает, насколько хорошо модель описывает данные и является суммой квадратов расстояний от точек данных до подобранной модели (показаны на графике ниже красными линиями).

SSTоTaLcars

введите описание изображения здесь

SSреsяdUaL

введите описание изображения здесь

SSмоdеLSSTоTaLSSреsяdUaL

введите описание изображения здесь

Чтобы ответить на ваши вопросы, давайте сначала вычислим те термины, которые вы хотите понять, начиная с модели и выводя в качестве справки:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Суммы квадратов - это квадраты расстояний отдельных точек данных до модели:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Средние квадраты - это суммы квадратов, усредненные по степеням свободы:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Мои ответы на ваши вопросы:

Q1:

  1. Таким образом, это фактически среднее расстояние наблюдаемых значений от линии lm?

рSЕMSреsяdUaL

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSреsяdUaLMSреsяdUaL SSреsяdUaLрSЕпредставляет среднее расстояние наблюдаемых данных от модели. Интуитивно понятно, что это также имеет смысл, потому что, если расстояние меньше, ваша модель будет лучше.

Q2:

  1. Теперь я в замешательстве, потому что, если RSE говорит нам, как далеко наши наблюдаемые точки отклоняются от линии регрессии, низкий RSE фактически говорит нам, что «ваша модель хорошо согласуется на основе наблюдаемых точек данных» -> таким образом, насколько хорошо наши модели соответствуют Так в чем же разница между R в квадрате и RSE?

р2SSмоdеLSSTоTaL

# R squared
r.sq <- ss.model/ss.total
r.sq

р2SSTоTaLSSмоdеL

рSЕр2рSЕ

р2

Q3:

  1. Верно ли, что мы можем иметь значение F, указывающее на сильные отношения, которые НЕ являются ЛИНЕЙНЫМИ, так что наш RSE высокий, а наш квадрат R низкий

FMSмоdеLMSреsяdUaL

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Ваш третий вопрос немного сложен для понимания, но я согласен с приведенной вами цитатой.

Стефан
источник
3

(2) Вы понимаете это правильно, вы просто испытываете трудности с концепцией.

р2

р2

Крис
источник
0

Просто чтобы дополнить то, что Крис ответил выше:

F-статистика - это деление среднего квадрата модели и среднего квадрата остатка. Программное обеспечение, такое как Stata, после подбора регрессионной модели также предоставляет значение p, связанное с F-статистикой. Это позволяет вам проверить нулевую гипотезу о том, что коэффициенты вашей модели равны нулю. Вы можете думать об этом как о «статистической значимости модели в целом».

МКЦ
источник