Что означает, что линейная регрессия является статистически значимой, но имеет очень низкий r квадрат?

14

Я понимаю, что это означает, что модель плохо предсказывает отдельные точки данных, но установила устойчивую тенденцию (например, у возрастает, когда х повышается).

PaperRockBazooka
источник
9
Это может предложить очень большой размер выборки
Генри
2
R-квадрат имеет некоторый багаж. stats.stackexchange.com/questions/13314/…
EngrStudent - Восстановить Монику

Ответы:

27

Это означает, что вы можете объяснить небольшую часть дисперсии в данных. Например, вы можете установить, что высшее образование влияет на заработную плату, но в то же время это лишь небольшой фактор. Есть много других факторов, которые влияют на вашу зарплату, и вклад степени колледжа очень мал, но обнаружим.

На практике это может означать, что в среднем степень колледжа увеличивает зарплату на 500 долларов в год, тогда как стандартное отклонение зарплаты людей составляет 10 тысяч долларов . Таким образом, у многих людей с высшим образованием зарплаты ниже, чем у необразованных, и ценность вашей модели для прогнозирования низкая.

Аксакал почти наверняка бинарный
источник
11

Это означает, что «невосстановимая ошибка высока», т. Е. Лучшее, что мы можем сделать (с линейной моделью), ограничено. Например, следующий набор данных:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Обратите внимание, что хитрость в этом наборе данных заключается в том, что для одного значения существует слишком много различных значений y , поэтому мы не можем сделать хороший прогноз, чтобы удовлетворить все из них. В то же время существуют «сильные» линейные корреляции между x и y . Если мы подходим к линейной модели, мы получим значимые коэффициенты, но с низким R в квадрате.xyxY

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

введите описание изображения здесь

Хайтау Ду
источник
3

Что означает, что линейная регрессия является статистически значимой, но имеет очень низкий r квадрат?

Это означает, что между независимой и зависимой переменными существует линейная связь, но об этой взаимосвязи не стоит говорить.

Однако значимость отношений очень сильно зависит от того, что вы исследуете, но в целом вы можете понимать, что статистическую значимость не следует путать с релевантностью.

При достаточно большом размере выборки даже самые тривиальные отношения могут оказаться статистически значимыми.

Фауст
источник
1
На самом деле линейная регрессия означает линейность по параметрам. Необработанные зависимые переменные могут быть преобразованы, и у вас все еще есть линейная регрессия. Я немного озадачен тем, что вы считаете статистической значимостью. Для меня это означает, что оценки параметров велики.
Майкл Р. Черник
^ Значимость относится к вероятности того, что результаты были чисто случайными и что между предикторами и зависимой переменной нет никакой связи. если у вас небольшой размер выборки и результаты значительны, тогда да, оценки параметров будут большими. однако, при смехотворно большой выборке вы можете получить значительные результаты даже при очень небольшой оценке параметров. попробуйте это здесь: danielsoper.com/statcalc/calculator.aspx
faustus
То, что вы говорите, звучит как общее описание того, что такое вывод. Но статистическая значимость - это особый термин, который связан с превышением критического значения (значений), когда критическое значение (я) зависит от определенного уровня значимости, который выбирает аналитик (например, 0,05, 0,01 и т. Д.). Размер выборки является еще одним фактором. В регрессии вы проверяете несколько гипотез (значимость отдельных коэффициентов регрессии, а также тест на отсутствие взаимосвязи. Это также может быть затруднено с помощью пошаговых процедур, которые выбирают между несколькими возможными моделями.
Michael R. Chernick
1
Статистика - это отчасти наука, а отчасти искусство, но она основана на математических принципах.
Майкл Р. Черник
2
@MichaelChernik Можете ли вы уточнить немного? Я согласен с faustus (на самом деле, я случайно дал аналогичный ответ) и не понимаю твою точку зрения. В линейной регрессии значение ((будь то значение отдельных коэффициентов регрессии или всей регрессии) проверяется на предмет гипотезы об отсутствии связи (коэффициент точно равен 0). При наличии достаточного количества данных вы можете сказать, что коэффициенты ненулевые, но ужасно маленький. (продолжение)
Luca Citi
2

Другой способ выразить это заключается в том, что это означает, что вы можете уверенно прогнозировать изменения на уровне населения, но не на индивидуальном уровне. то есть существует большая разница в отдельных данных, но когда используется достаточно большая выборка, общий эффект можно увидеть в целом. Это одна из причин, по которой некоторые правительственные рекомендации в области здравоохранения бесполезны для человека. Правительства иногда чувствуют необходимость действовать, потому что они видят, что большая часть какой-либо деятельности ведет к увеличению общего количества смертей среди населения. Они дают советы или политику, которая «спасает» эти жизни. Тем не менее, из-за большой разницы в индивидуальных ответах, человек может очень вряд ли лично увидеть какую-либо выгоду (или, что еще хуже, из-за определенных генетических условий, его собственное здоровье на самом деле улучшилось бы от повиновения противоположному совету, но это скрыто в совокупности населения). Если человек получает выгоду (например, удовольствие) от «нездоровой» деятельности, следование совету может означать, что он отказывается от этого определенного удовольствия на протяжении всей своей жизни, но на самом деле не меняет лично, пострадали ли они от этого состояния или нет.

healthcynic
источник
Очень хороший пример!
kjetil b halvorsen
R2