Страницы справки в R предполагают, что я знаю, что означают эти цифры, но я не знаю. Я пытаюсь действительно интуитивно понять каждый номер здесь. Я просто опубликую результаты и прокомментирую то, что узнал. Могут быть (будут) ошибки, так как я просто напишу, что я предполагаю. В основном я хотел бы знать, что означают значения t в коэффициентах и почему они выводят остаточную стандартную ошибку.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Это 5-балльная сводка по остаткам (их среднее значение всегда равно 0, верно?). Числа могут быть использованы (я думаю, здесь), чтобы быстро увидеть, есть ли какие-либо большие выбросы. Также вы уже можете увидеть это здесь, если остатки далеки от нормального распределения (они должны быть нормально распределены).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Оценки , вычисленные по регрессии наименьших квадратов. Также стандартной ошибкой является . Я хотел бы знать, как это рассчитывается. Я понятия не имею, откуда берется t-значение и соответствующее p-значение. Я знаю, что должен быть нормально распределенным, но как рассчитывается t-значение?
Residual standard error: 0.407 on 148 degrees of freedom
, наверное. Но почему мы рассчитываем это, и что это говорит нам?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
, то есть . Соотношение близко к 1, если точки лежат на прямой линии, и 0, если они случайные. Что такое скорректированный R-квадрат?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F и p для всей модели, а не только для одиночных с предыдущей. Значение F равно . Чем больше он растет, тем менее вероятно, что - вообще не имеют никакого эффекта.
источник
Ответы:
Итог из пяти пунктов
да, идея состоит в том, чтобы дать краткое описание распределения. Он должен быть примерно симметричным относительно среднего значения, медиана должна быть близка к 0, значения 1Q и 3Q в идеале должны быть примерно одинаковыми значениями.
Коэффициенты иβi^s
Каждый коэффициент в модели является гауссовой (нормальной) случайной величиной. является оценкой среднего распределения этой случайной величины, и стандартная ошибка есть квадратный корень из дисперсии этого распределения. Это мера неопределенности в оценке .βi^ βi^
Вы можете посмотреть, как они вычисляются (хорошо используются математические формулы) в Википедии . Обратите внимание, что любая уважающая себя программа статистики не будет использовать стандартные математические уравнения для вычисления потому что выполнение их на компьютере может привести к большой потере точности вычислений.βi^
В статистические оценки ( ) делится на их стандартные ошибки ( ), например . Предполагая, что вы имеете ту же модель в объекте, что и ваш Q:t βi^ σi^ ti=βi^σi^
mod
тогда значения отчетов R вычисляются как:t
Гдеβi^ σi^
coef(mod)
находятся и дает квадратные корни диагональных элементов ковариационной матрицы параметров модели, которые являются стандартными ошибками параметров ( ).sqrt(diag(vcov(mod)))
Значение p - это вероятность достижения aравным или превышающим наблюдаемое абсолютное значение t, если нулевая гипотеза ( ) была верной, где равно . Они вычисляются как (используя сверху):|t| H0 H0 βi=0
tstats
Таким образом, мы рассчитываем верхнюю хвостовую вероятность достижения значений мы сделали из распределения со степенями свободы, равными остаточным степеням свободы модели. Это представляет вероятность достижения значения большего, чем абсолютные значения наблюдаемых s. Он умножается на 2, потому что, конечно, может быть большим и в отрицательном направлении.t t t t t
Остаточная стандартная ошибка
Остаточная стандартная ошибка является оценкой параметра . Предположение в обычных наименьших квадратах состоит в том, что невязки индивидуально описываются гауссовым (нормальным) распределением со средним 0 и стандартным отклонением . относится к постоянной дисперсии предположения; каждый остаток имеет одинаковую дисперсию, и эта дисперсия равна .σ σ σ σ2
СкорректированоR2
Скорректированный рассчитывается как:R2
Скорректированный - это то же самое, что и , но с учетом сложности (то есть количества параметров) модели. При наличии модели с одним параметром, с определенным , если мы добавим еще один параметр в эту модель, новой модели должен возрасти, даже если добавленный параметр не имеет статистической мощности. Скорректированная учитывает это путем включения количества параметров в модель.R2 R2 R2 R2 R2
представляет собой отношение двух дисперсий ( ), дисперсия объясняется параметрами в модели (сумма квадратов регрессии, SSR) и остаточная дисперсией или необъяснимой (сумма квадратов ошибок, SSE). Вы можете увидеть это лучше, если мы получим таблицу ANOVA для модели через :F SSR/SSE
anova()
В s являются одинаковыми в выходных данных ANOVA и выход. Столбец содержит две дисперсии и . Мы можем вычислить вероятность достижения такого большого значения при нулевой гипотезе отсутствия эффекта из распределения с 1 и 148 степенями свободы. Это то, что сообщается в последнем столбце таблицы ANOVA. В простом случае одного непрерывного предиктора (согласно вашему примеру) , поэтому значения p одинаковы. Эта эквивалентность имеет место только в этом простом случае.F 3.7945/0.1656=22.91 F F F=t2Petal.Width
summary(mod)
Mean Sq
источник
Ронен Исраэль и Эдриенн Росс (AQR) написали очень хорошую статью на эту тему: Измерение воздействия факторов: использование и злоупотребления .
Подводя итог (см .: с. 8),
lm()
Сводка R вычисляет значение pPr(>|t|)
. Чем меньше значение p, тем значительнее фактор. Значение P = 0,05 является разумным порогом.источник