Немного предыстории
Я работаю над интерпретацией регрессионного анализа, но я действительно запутался в значении r, r в квадрате и остаточного стандартного отклонения. Я знаю определения:
характеризации
r измеряет силу и направление линейной зависимости между двумя переменными на диаграмме рассеяния
R-квадрат - это статистическая мера того, насколько близки данные к подогнанной линии регрессии.
Остаточное стандартное отклонение - это статистический термин, используемый для описания стандартного отклонения точек, сформированных вокруг линейной функции, и является оценкой точности измеряемой зависимой переменной. ( Не знаю, что такое юниты, любая информация о юнитах здесь будет полезна )
(источники: здесь )
Вопрос:
Хотя я «понимаю» характеристики, я понимаю, как эти термины пытаются сделать вывод о наборе данных. Я приведу здесь небольшой пример, может быть, это может послужить руководством для ответа на мой вопрос (не стесняйтесь использовать собственный пример!).
Пример
Это не вопрос практической работы, однако я искал в своей книге, чтобы получить простой пример (текущий анализируемый набор данных слишком сложный и большой, чтобы показать его здесь)
Двадцать участков, каждый 10 х 4 метра, были случайно выбраны на большом поле кукурузы. Для каждого участка наблюдали плотность растений (количество растений на участке) и средний вес початка (г зерна на початок). Результаты приведены в следующей таблице:
(источник: Статистика для наук о жизни )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Сначала я сделаю диаграмму рассеяния для визуализации данных:
чтобы я мог рассчитать r, R 2 и остаточное стандартное отклонение.
Сначала корреляционный тест:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
и во-вторых, краткое изложение линии регрессии:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Итак, на основании этого теста: r = -0.9417954
, R-квадрат: 0.887
и Остаточная стандартная ошибка: 8.619
что эти значения говорят нам о наборе данных? (см. вопрос )
источник
Ответы:
Эта статистика может рассказать вам о том, есть ли линейный компонент в отношении, но не очень о том, является ли отношение строго линейным. Отношение с небольшим квадратичным компонентом может иметь r ^ 2 0,99. График остатков в зависимости от прогнозируемого может быть показательным. В эксперименте Галилея здесь https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html корреляция очень высокая, но связь явно нелинейная.
источник
Вот вторая попытка ответа после получения ответа на вопросы с моим первым ответом.
Остаточная стандартная ошибка - это стандартное отклонение для нормального распределения, центрированного на линии предсказанной регрессии, представляющее распределение фактически наблюдаемых значений. Другими словами, если бы мы измеряли только плотность растений для нового графика, мы могли бы предсказать вес початка, используя коэффициенты подобранной модели, это среднее значение этого распределения. RSE - это стандартное отклонение этого распределения и, следовательно, мера того, насколько мы ожидаем, что фактически наблюдаемые веса Коба будут отклоняться от значений, предсказанных моделью. RSE ~ 8 в этом случае необходимо сравнивать со стандартным отклонением выборки веса початка, но чем меньше RSE по сравнению с SD образца, тем более прогнозируемой или адекватной является модель.
источник