Я понимаю, что это означает, что модель плохо предсказывает отдельные точки данных, но установила устойчивую тенденцию (например, у возрастает, когда х повышается).
regression
inference
r-squared
linear
PaperRockBazooka
источник
источник
Ответы:
Это означает, что вы можете объяснить небольшую часть дисперсии в данных. Например, вы можете установить, что высшее образование влияет на заработную плату, но в то же время это лишь небольшой фактор. Есть много других факторов, которые влияют на вашу зарплату, и вклад степени колледжа очень мал, но обнаружим.
На практике это может означать, что в среднем степень колледжа увеличивает зарплату на 500 долларов в год, тогда как стандартное отклонение зарплаты людей составляет 10 тысяч долларов . Таким образом, у многих людей с высшим образованием зарплаты ниже, чем у необразованных, и ценность вашей модели для прогнозирования низкая.
источник
Это означает, что «невосстановимая ошибка высока», т. Е. Лучшее, что мы можем сделать (с линейной моделью), ограничено. Например, следующий набор данных:
Обратите внимание, что хитрость в этом наборе данных заключается в том, что для одного значения существует слишком много различных значений y , поэтому мы не можем сделать хороший прогноз, чтобы удовлетворить все из них. В то же время существуют «сильные» линейные корреляции между x и y . Если мы подходим к линейной модели, мы получим значимые коэффициенты, но с низким R в квадрате.x y x y
источник
источник
Это означает, что между независимой и зависимой переменными существует линейная связь, но об этой взаимосвязи не стоит говорить.
Однако значимость отношений очень сильно зависит от того, что вы исследуете, но в целом вы можете понимать, что статистическую значимость не следует путать с релевантностью.
При достаточно большом размере выборки даже самые тривиальные отношения могут оказаться статистически значимыми.
источник
Другой способ выразить это заключается в том, что это означает, что вы можете уверенно прогнозировать изменения на уровне населения, но не на индивидуальном уровне. то есть существует большая разница в отдельных данных, но когда используется достаточно большая выборка, общий эффект можно увидеть в целом. Это одна из причин, по которой некоторые правительственные рекомендации в области здравоохранения бесполезны для человека. Правительства иногда чувствуют необходимость действовать, потому что они видят, что большая часть какой-либо деятельности ведет к увеличению общего количества смертей среди населения. Они дают советы или политику, которая «спасает» эти жизни. Тем не менее, из-за большой разницы в индивидуальных ответах, человек может очень вряд ли лично увидеть какую-либо выгоду (или, что еще хуже, из-за определенных генетических условий, его собственное здоровье на самом деле улучшилось бы от повиновения противоположному совету, но это скрыто в совокупности населения). Если человек получает выгоду (например, удовольствие) от «нездоровой» деятельности, следование совету может означать, что он отказывается от этого определенного удовольствия на протяжении всей своей жизни, но на самом деле не меняет лично, пострадали ли они от этого состояния или нет.
источник