Учитывая две случайные величины и мы можем вычислить их «коэффициент корреляции» и сформировать линию наилучшего соответствия между этими двумя случайными переменными. У меня вопрос почему?
1) Существуют случайные величины, и которые зависят наихудшим образом, т. и, несмотря на это, . Если человек мыслит только по линейной регрессии, он был бы полностью ослеплен.
2) Почему именно линейный? Существуют и другие виды отношений, которые могут существовать между случайными переменными. Почему этот один из всех других?
regression
Николас Бурбаки
источник
источник
Ответы:
Я согласен, что не все отношения являются линейными сами по себе, но довольно много отношений могут быть линейно аппроксимированы. Мы видели много таких случаев в математике, таких как ряд Тейлора или ряд Фурье и т. Д. Ключевым моментом здесь является то, как сказал в комментарии geomatt22, вы можете в общем случае преобразовать нелинейные данные и применить какое-то преобразование с помощью базисных функций и линеаризовать отношения. Причина, по которой университеты рассматривают только «модели множественной линейной регрессии» (включая простые модели регрессии), заключается в том, что они являются строительным материалом для моделей более продвинутого уровня, которые также являются линейными.
С математической точки зрения, до тех пор, пока вы можете доказать, что определенное линейное приближение плотно в гильбертовом пространстве, вы сможете использовать это приближение для представления функции в этом пространстве.
источник
Модель, на которую вы ссылаетесь, простая линейная регрессия, или «линия наилучшего соответствия» (здесь я путаю модель и метод оценки), по общему признанию, очень проста (как следует из названия). Зачем это изучать? Я вижу много причин. Далее я предполагаю, что понятие случайной величины было введено, по крайней мере, неофициально, потому что вы упомянули это в своем вопросе.
источник
Еще одной причиной является прекрасным способом регрессии дает унифицированную обработку методов , таких как ANOVA. Мне обычное «элементарное» лечение ANOVA кажется довольно неясным, но основанное на регрессии лечение совершенно ясно. Я подозреваю, что это во многом связано с тем, как регрессионные модели делают явные предположения о том, что в «элементарных» методах они молчаливы и не исследованы. Кроме того, концептуальная ясность, предлагаемая такой объединяющей перспективой, сопровождается аналогичными практическими преимуществами, когда приходит время внедрять методы в статистическом программном обеспечении.
Этот принцип применим не только к ANOVA, но и к таким расширениям, как ограниченные кубические сплайны, что в первую очередь относится к вашему второму вопросу.
источник
Популярность линейной регрессии отчасти объясняется ее интерпретируемостью, то есть нетехнические люди могут понять коэффициенты параметра с небольшим объяснением. Это добавляет большую ценность в бизнес-ситуациях, когда конечные пользователи результатов или прогнозов могут не иметь глубокого понимания математики / статистики.
Да, у этого метода есть свои предположения и ограничения (как и у всех подходов), и во многих случаях он может не обеспечивать наилучшего соответствия. Но линейная регрессия очень устойчива и часто может работать довольно хорошо, даже если допущения нарушены.
По этим причинам, безусловно, стоит учиться.
источник
Что-то может быть не связано напрямую.
источник