Меня действительно смущает различие в значении относительно контекста линейной регрессии следующих терминов:
- F статистика
- R в квадрате
- Остаточная стандартная ошибка
Я нашел эту веб-страницу, которая дала мне отличное понимание различных терминов, связанных с линейной регрессией, однако упомянутые выше термины выглядят довольно много (насколько я понимаю). Я процитирую то, что я прочитал и что меня смутило:
Остаточная стандартная ошибка - это мера качества соответствия линейной регрессии ........ Остаточная стандартная ошибка - это средняя величина, на которую отклик (dist) будет отклоняться от истинной линии регрессии.
1. Таким образом, это фактически среднее расстояние наблюдаемых значений от линии lm?
R-квадрат статистики показывает, насколько хорошо модель соответствует фактическим данным.
2. Теперь я запутался, потому что, если RSE говорит нам, как далеко наши наблюдаемые точки отклоняются от линии регрессии, низкий RSE фактически говорит нам, что «ваша модель хорошо согласуется на основе наблюдаемых точек данных» -> таким образом, насколько хороши наши модели подходят, так в чем же разница между R в квадрате и RSE?
F-статистика - хороший показатель того, существует ли связь между нашим предиктором и переменными ответа.
3. Верно ли, что мы можем иметь значение F, указывающее на сильные отношения, которые НЕ являются ЛИНЕЙНЫМИ, так что наш RSE высокий, а наш квадрат R низкий
источник
Ответы:
Лучший способ понять эти термины - выполнить регрессионный расчет вручную. Я написал два тесно связанных ответа ( здесь и здесь ), однако они могут не полностью помочь вам понять ваш конкретный случай. Но все же прочитайте их. Возможно, они также помогут вам лучше понять эти термины.
Каждый из них оценивает, насколько хорошо модель описывает данные и является суммой квадратов расстояний от точек данных до подобранной модели (показаны на графике ниже красными линиями).
cars
Чтобы ответить на ваши вопросы, давайте сначала вычислим те термины, которые вы хотите понять, начиная с модели и выводя в качестве справки:
Суммы квадратов - это квадраты расстояний отдельных точек данных до модели:
Средние квадраты - это суммы квадратов, усредненные по степеням свободы:
Мои ответы на ваши вопросы:
Q1:
Q2:
Q3:
Ваш третий вопрос немного сложен для понимания, но я согласен с приведенной вами цитатой.
источник
(2) Вы понимаете это правильно, вы просто испытываете трудности с концепцией.
источник
Просто чтобы дополнить то, что Крис ответил выше:
F-статистика - это деление среднего квадрата модели и среднего квадрата остатка. Программное обеспечение, такое как Stata, после подбора регрессионной модели также предоставляет значение p, связанное с F-статистикой. Это позволяет вам проверить нулевую гипотезу о том, что коэффициенты вашей модели равны нулю. Вы можете думать об этом как о «статистической значимости модели в целом».
источник