Что r, r в квадрате и остаточное стандартное отклонение говорят нам о линейных отношениях?

13

Немного предыстории
Я работаю над интерпретацией регрессионного анализа, но я действительно запутался в значении r, r в квадрате и остаточного стандартного отклонения. Я знаю определения:

характеризации

r измеряет силу и направление линейной зависимости между двумя переменными на диаграмме рассеяния

R-квадрат - это статистическая мера того, насколько близки данные к подогнанной линии регрессии.

Остаточное стандартное отклонение - это статистический термин, используемый для описания стандартного отклонения точек, сформированных вокруг линейной функции, и является оценкой точности измеряемой зависимой переменной. ( Не знаю, что такое юниты, любая информация о юнитах здесь будет полезна )

(источники: здесь )

Вопрос:
Хотя я «понимаю» характеристики, я понимаю, как эти термины пытаются сделать вывод о наборе данных. Я приведу здесь небольшой пример, может быть, это может послужить руководством для ответа на мой вопрос (не стесняйтесь использовать собственный пример!).

Пример
Это не вопрос практической работы, однако я искал в своей книге, чтобы получить простой пример (текущий анализируемый набор данных слишком сложный и большой, чтобы показать его здесь)

Двадцать участков, каждый 10 х 4 метра, были случайно выбраны на большом поле кукурузы. Для каждого участка наблюдали плотность растений (количество растений на участке) и средний вес початка (г зерна на початок). Результаты приведены в следующей таблице:
(источник: Статистика для наук о жизни )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Сначала я сделаю диаграмму рассеяния для визуализации данных: чтобы я мог рассчитать r, R 2 и остаточное стандартное отклонение. Сначала корреляционный тест:
введите описание изображения здесь

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

и во-вторых, краткое изложение линии регрессии:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Итак, на основании этого теста: r = -0.9417954, R-квадрат: 0.887и Остаточная стандартная ошибка: 8.619 что эти значения говорят нам о наборе данных? (см. вопрос )

KingBoomie
источник
3
Возможно, стоит отметить, что то, что вы называете «определениями», является лишь случайными характеристиками и, как таковое, может вводить в заблуждение, в зависимости от того, как они интерпретируются и применяются. Фактические определения являются количественными и точными.
whuber
Спасибо, что указали на то, что я, источники, которые я использовал, назвал эти определения, однако без контекстных «характеризаций», вероятно, было бы действительно лучше, я изменю это!
KingBoomie
Части: R-квадрат обычно объясняется как доля дисперсии, объясняемой предикторами, поэтому близкое к 1 хорошо. Единицами остаточного стандартного отклонения должны быть единицы ваших остатков, которые являются единицами вашей переменной ответа.
Алистер
Спасибо! @alistaire на самом деле это имеет смысл, ха-ха, потому что мы сравниваем значение y Исходных точек со значениями y прогнозируемых точек
KingBoomie
Вы должны составить график остатков против предсказанного, как это было предложено Дэвидом в его ответе
HelloWorld,

Ответы:

5

Эта статистика может рассказать вам о том, есть ли линейный компонент в отношении, но не очень о том, является ли отношение строго линейным. Отношение с небольшим квадратичным компонентом может иметь r ^ 2 0,99. График остатков в зависимости от прогнозируемого может быть показательным. В эксперименте Галилея здесь https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html корреляция очень высокая, но связь явно нелинейная.

Дэвид Лейн
источник
5

Вот вторая попытка ответа после получения ответа на вопросы с моим первым ответом.

р|р||р|

р2р2р2

рр2ррр2рр2

Остаточная стандартная ошибка - это стандартное отклонение для нормального распределения, центрированного на линии предсказанной регрессии, представляющее распределение фактически наблюдаемых значений. Другими словами, если бы мы измеряли только плотность растений для нового графика, мы могли бы предсказать вес початка, используя коэффициенты подобранной модели, это среднее значение этого распределения. RSE - это стандартное отклонение этого распределения и, следовательно, мера того, насколько мы ожидаем, что фактически наблюдаемые веса Коба будут отклоняться от значений, предсказанных моделью. RSE ~ 8 в этом случае необходимо сравнивать со стандартным отклонением выборки веса початка, но чем меньше RSE по сравнению с SD образца, тем более прогнозируемой или адекватной является модель.

Йохан Фалькенджек
источник
@whuber Других ответов на этот вопрос пока нет, поэтому я решил попробовать еще раз. Вместо того, чтобы восстановить старый ответ, со всем его багажом, я решил просто написать новый (за исключением абзаца RSE, который я скопировал). Если бы у вас было время, я был бы очень благодарен за любые отзывы об этой второй попытке. Мой обычный подход к оценке модели - это наборы перекрестной проверки и удержания, поскольку целью обычно является прогнозирование, но я бы очень хотел понять эти метрики, а также они довольно распространены.
Йохан Фалькенджек
2
+1 Спасибо за ваши усилия в этом. Вы создали пост, который заслуживает более широкого внимания за каноническое рассмотрение такой фундаментальной и важной статистики регрессии. Одна маленькая вещь, хотя: я не уверен, что я следую вашим первоначальным замечаниям о|р|рρ