Каковы некоторые из наиболее распространенных заблуждений о линейной регрессии?

70

Мне любопытно, для тех из вас, кто имеет большой опыт сотрудничества с другими исследователями, с какими наиболее распространенными заблуждениями о линейной регрессии вы сталкиваетесь?

Я думаю, что это может быть полезным упражнением, чтобы заранее подумать о распространенных заблуждениях, чтобы

Предвидеть ошибки людей и быть в состоянии успешно сформулировать, почему некоторые заблуждения неверны

Поймите, если я сам питаю некоторые заблуждения!

Несколько основных, о которых я могу думать:

Независимые / зависимые переменные должны быть нормально распределены

Переменные должны быть стандартизированы для точной интерпретации

Любые другие?

Все ответы приветствуются.

regression multiple-regression ST21
источник

5

Вероятно, это должно быть сделано CW, поскольку он предлагает список возможностей, и будет трудно сказать, что один объективно является «правильным ответом».

gung - Восстановить Монику

Многие люди, которых я знаю, все еще настаивают на выполнении линеаризации своих данных и оставляют это при этом, даже когда используемая ими вычислительная среда имеет хорошую поддержку нелинейной регрессии. (Линеаризации, конечно, полезны в качестве отправных точек для нелинейных подгонок, но эти люди даже не осознают этого.)

JM не является статистиком

1

@ Gung: Wiki сообщества все еще вещь? В основном не одобряемый в масштабах всей сети , CW никогда не задумывался о том, чтобы предоставлять минимальные, широко задаваемые вопросы о большом списке для выхода из тюрьмы или лишать людей репутации, которую они могли бы заработать, если бы вопрос был в первую очередь актуальным. Единственный способ, которым вы можете даже задать вопрос, - попросить модератора это сделать.

Роберт Харви

1

Если бы Бог сделал мир линейным, не было бы нелинейной регрессии.

Марк Л. Стоун

1

@RobertHarvey: Да, это все еще очень много , что на CrossValidated (на мой взгляд, к сожалению). У нас было несколько горячих обсуждений в Meta по этому поводу ( например, это ), но текущий статус-кво заключается в том, что статус CW применяется по всем основанным на мнении вопросам или по большому списку, которые рассматриваются по теме достаточно, чтобы оставаться открытым.

говорит амеба: восстанови монику

38

$\hat{\beta} \approx 0$

$Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$

Третья ложная предпосылка в том , что увеличение числа оцениваемых параметров обязательно приводит к потере статистической мощности. Это может быть ложным , когда истинное соотношение является нелинейным и требует несколько параметров для оценки (например, функция «сломанной палки» требует не только перехватывать и откосы условия прямого, но требует точки , в которой изломах и сколько изменения наклона оценки также): остатки неправильно определенной модели (например, прямой линии) могут стать довольно большими (относительно правильно заданного функционального отношения), что приведет к более низкой вероятности отклонения и более широким доверительным интервалам и интервалам прогнозирования (в дополнение к искаженным оценкам) ,

Alexis
источник

4

(+1) Придирки: (1) Я не думаю, что даже вводные тексты подразумевают, что все кривые являются полиномиальными функциями, скорее, что они могут быть достаточно хорошо аппроксимированы в данном диапазоне полиномиальными функциями. Таким образом, они попадают в класс «подходов регрессии, которые не принимают какой-либо конкретной функциональной формы», управляемых «гиперпараметром», определяющим волнистость: диапазон для лёсса, нет. узлы для регрессии на сплайновой основе, степень для регрессии на полиномиальной основе. (Я не размахиваю флагами для многочленов - хорошо известно, что они имеют тенденцию вращаться вокруг концов больше, чем нам хотелось бы -, ...

Scortchi - Восстановить Монику

2

... просто отдавая им должное.) (2) Синусоида вполне может быть как таковой в рамках линейной модели; эффект насыщения с использованием нелинейной модели (скажем, прямоугольной гиперболы); & гр. Конечно, вы не сказали иначе, но, возможно, стоит указать, что, если вы знаете, что есть цикл или асимптота, применение этих ограничений в вашей модели будет полезным.

Scortchi - Восстановить Монику

2

@ Scortchi Я не мог согласиться больше! (Действительно, учитывая бесконечное количество полиномов, любая функция может быть идеально представлена.) Стремление было кратким. :)

Алексис

2

@Alexis Попробуйте аппроксимировать базовую функцию Конвея полиномами. :)

Секрет Соломонова

1

χ_{Q}

$\chi_{\mathbb{Q}}$

22

$y$ $x$ $x$

$x$ $x$ $y$ $x$ $x$

$x$

$y = X\beta + \varepsilon$ $y$

(Возможно, мне следует также сослаться на некоторые другие распространенные модели ошибок в переменных во все более общем порядке: ортогональная регрессия , регрессия Деминга и общее наименьшее число квадратов .)

Рекомендации

Smith, GD & Phillips, AN (1996). « Инфляция в эпидемиологии:« доказательство и измерение связи между двумя вещами »вновь ». British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). «Доказательство и измерение связи между двумя вещами». Американский журнал психологии 15 : 72–101.

Серебряная рыбка
источник

На этом примечании: это одна из причин использования техники, которая называется либо «наименьшими квадратами», либо «ортогональной регрессией» (в зависимости от ссылки, которую вы читаете); это значительно сложнее, чем простые наименьшие квадраты, но стоит делать, если все ваши точки загрязнены ошибкой.

JM не статистика

@JM Спасибо - да, на самом деле я изначально хотел добавить ссылку на TLS, но меня отвлекла статья Смита и Филлипса!

Серебряная рыба

2

+1 Отличное дополнение к этой теме. Я часто рассматривал модели EIV в своей работе. Однако, помимо их сложности или зависимости от «коэффициентов ошибок», существует более концептуальная проблема, которую следует учитывать: многие регрессии, особенно в контролируемом обучении или прогнозировании, хотят связать наблюдаемые предикторы с наблюдаемыми результатами. Модели EIV, с другой стороны, пытаются определить основную связь между средним предиктором и средним ответом ... немного другой вопрос.

2

Таким образом, то, что можно назвать «разбавлением» «истинной» регрессии (в научном контексте), можно назвать «отсутствием предсказательной полезности» или что-то подобное в контексте предсказания.

21

$p$

Несколько недоразумений, которые, на мой взгляд, характерны для множественной регрессии:

$p$
$Y$ $X$ $X$ $Y$ $Z_1, \ldots, Z_5$ $Z_6, \ldots, Z_{20}$

gung - Восстановить Монику
источник

12

Хорошая вещь. Этот ответ мог бы быть еще более полезным, если бы он объяснил, почему эти два понятия неправильные и что нужно делать вместо этого?

DW

14

Я бы сказал, что первое, что вы перечислите, является, вероятно, наиболее распространенным - и, возможно, наиболее широко изучаемым способом - из вещей, которые явно видятся неправильными, но вот некоторые другие, которые менее ясны в некоторых ситуациях ( действительно ли они применимы), но могут повлиять на еще больше анализов, и, возможно, более серьезно. Они часто просто никогда не упоминаются, когда вводится предмет регрессии.

Рассматривать как случайные выборки из совокупности наблюдений, представляющих интерес, которые не могут быть близки к репрезентативным (не говоря уже о случайной выборке). [Вместо этого некоторые исследования можно рассматривать как нечто ближе к удобным образцам]
С данными наблюдений, просто игнорируя последствия пропуска важных движущих сил процесса, которые, безусловно, смещают оценки коэффициентов включенных переменных (во многих случаях, даже к вероятному изменению их знака), без попытки рассмотреть способы решения с ними (будь то по незнанию проблемы или просто не подозревая, что что-либо можно сделать). [В некоторых областях исследований эта проблема стоит больше, чем в других, будь то из-за видов собираемых данных или из-за того, что люди в некоторых областях применения с большей вероятностью обучались этой проблеме.]
Ложная регрессия (в основном с данными, собранными с течением времени). [Даже когда люди знают, что это происходит, есть еще одно распространенное заблуждение, что достаточно просто отличить от предполагаемого стационарного, чтобы полностью избежать проблемы.]

Конечно, можно упомянуть много других (например, обращение с независимыми данными, которые почти наверняка будут последовательно коррелированными или даже интегрированными, может быть примерно таким же распространенным).

Вы можете заметить, что обсервационные исследования данных, собранных с течением времени, могут быть затронуты всеми этими моментами одновременно ... но этот вид исследований очень распространен во многих областях исследований, где регрессия является стандартным инструментом. То, как они могут добраться до публикации без единого рецензента или редактора, знающего хотя бы об одном из них и по крайней мере требующего некоторого уровня отказа от ответственности в выводах, продолжает меня беспокоить.

Статистика таит в себе проблемы с невоспроизводимыми результатами, когда речь идет о достаточно тщательно контролируемых экспериментах (в сочетании с, возможно, не столь тщательно контролируемыми анализами), поэтому, насколько хуже должна быть ситуация воспроизводимости?

оборота Glen_b
источник

6

y

$y$

x

$x$

2

@ Silverfish Я полностью с тобой согласен.

Марк Л. Стоун

@Silverfish это CW, так что вы можете свободно редактировать в таком подходящем дополнении.

Glen_b

@Silverfish, есть причина, по которой я сам не добавил ее, когда вы упомянули об этом ... Я думаю, что это, вероятно, стоит нового ответа

Glen_b

12

Я, вероятно, не назвал бы эти заблуждения, но, может быть, общие моменты путаницы / зависаний и, в некоторых случаях, проблемы, о которых исследователи могут не знать.

Мультиколлинеарность (включая случай большего количества переменных, чем точек данных)
гетероскедастичность
Являются ли значения независимых переменных подверженными шуму
Как масштабирование (или не масштабирование) влияет на интерпретацию коэффициентов
Как обрабатывать данные от нескольких предметов
Как работать с последовательными корреляциями (например, временные ряды)

С ошибочной стороны вещей:

$y = ax^2 + bx + c$ $x$
Эта «регрессия» означает обычные наименьшие квадраты или линейную регрессию
То, что низкие / высокие веса обязательно подразумевают слабые / сильные отношения с зависимой переменной
Эта зависимость между зависимой и независимой переменными может быть обязательно сведена к парным зависимостям.
Это высокое качество прилегания к тренировочному набору подразумевает хорошую модель (т.е. пренебрежение переоснащением)

user20160
источник

7

По моему опыту, студенты часто придерживаются мнения, что квадратные ошибки (или регрессия OLS) по своей сути являются подходящей, точной и в целом полезной вещью или даже не имеют альтернативы. Я часто видел рекламу OLS вместе с замечаниями о том, что он «придает больший вес более экстремальным / девиантным наблюдениям», и большую часть времени по крайней мере подразумевается, что это желаемое свойство. Это понятие может быть изменено позже, когда будет введена обработка выбросов и надежных подходов, но в этот момент ущерб уже нанесен. Можно утверждать, что широко распространенное использование квадратов ошибок исторически больше связано с их математическим удобством, чем с каким-то естественным законом реальных затрат на ошибки.

В целом, больший акцент может быть сделан на понимании того, что выбор функции ошибки несколько произвольный. В идеале любой выбор штрафа в алгоритме должен руководствоваться соответствующей реальной функцией стоимости, связанной с потенциальной ошибкой (т. Е. С использованием структуры принятия решений). Почему бы сначала не установить этот принцип, а потом посмотреть, насколько хорошо мы можем это сделать?

Бенедикт MJG
источник

2

Выбор также зависит от приложения. OLS полезен для алгебраических подгонок по оси y, но в меньшей степени для геометрических приложений, где общее значение наименьших квадратов (или некоторая другая функция стоимости, основанная на ортогональном расстоянии) имеет больше смысла.

Вилли Уилер

4

Другое распространенное заблуждение состоит в том, что термин ошибки (или нарушение эконометрического выражения) и остатки - это одно и то же.

Термин ошибки является случайной величиной в истинной модели или процессе генерирования данных , и часто предполагается, что он следует определенному распределению, тогда как остатки - это отклонения наблюдаемых данных от подобранной модели. Как таковые, остатки можно считать оценками ошибок.

Роберт Лонг
источник

Бьюсь об заклад, людям было бы интересно объяснить, почему это важно, или в каких случаях.

rolando2

4

Наиболее распространенное заблуждение, с которым я сталкиваюсь, состоит в том, что линейная регрессия предполагает нормальность ошибок. Это не так. Нормальность полезна в связи с некоторыми аспектами линейной регрессии, например, небольшими выборочными свойствами, такими как доверительные пределы коэффициентов. Даже для этих вещей существуют асимптотические значения, доступные для ненормальных распределений.

Вторым наиболее распространенным является кластер путаницы в отношении эндогенности, например, невнимательность к петлям обратной связи. Если есть обратная связь от Y до X, это проблема.

Аксакал
источник

4

Y = a X + b

$Y = a \, X + b$

X = \frac{1}{a} Y - \frac{b}{a}

$X = \frac{1}{a} \, Y - \frac{b}{a}$

Возможно, это также связано с разницей между OLS и общим наименьшим квадратом или первым основным компонентом.

Jf Parmentier
источник

3

Я часто видел неправильное представление о применимости линейной регрессии в некоторых случаях на практике.

Например, допустим, что интересующая нас переменная - это число чего-то (пример: посетители на веб-сайте) или соотношение чего-то (пример: коэффициент конверсии). В таких случаях переменная может быть лучше смоделирована с использованием функций связи, таких как Пуассон (счетчики), Бета (отношения) и т. Д. Поэтому более подходящим является использование обобщенной модели с более подходящей функцией связи. Но только потому, что переменная не является категориальной, я видел людей, начинающих с простой линейной регрессии (функция ссылки = идентичность). Даже если мы пренебрегаем влиянием на точность, допущения моделирования здесь являются проблемой.

hssay
источник

2

Вот один, я думаю, часто упускается из виду исследователями:

Переменное взаимодействие: исследователи часто смотрят на отдельные бета-версии отдельных предикторов и часто даже не указывают условия взаимодействия. Но в реальном мире вещи взаимодействуют. Без правильного определения всех возможных терминов взаимодействия вы не знаете, как ваши «предикторы» объединяются в формировании результата. И если вы хотите быть усердным и указывать все взаимодействия, количество предикторов взорвется. Из моих расчетов вы можете исследовать только 4 переменные и их взаимодействие со 100 субъектами. Если вы добавите еще одну переменную, вы можете легко заменить ее.

user4534898
источник

0

Другое распространенное заблуждение состоит в том, что оценки (подгонянные значения) не являются инвариантными к преобразованиям, например

f ({\hat{y}}_{i}) \neq \hat{f (y_{i})}

$f(\hat{y}_i) \neq \widehat{f(y_i)}$

{\hat{y}}_{i} = {\vec{x}}_{i}^{T} \hat{β}

$\hat{y}_i = \vec{x}_i ^T \hat{\beta}$

$f(\cdot)$

$log(\cdot)$

Это происходит все время, когда вы выполняете логарифмическое преобразование ваших данных, подгоняете линейную регрессию, затем возводите экспоненту в соответствие значение, и люди читают это как регрессию. Это не среднее значение, это медиана (если все действительно распределено по лог-закону).

Лукас Робертс
источник

Каковы некоторые из наиболее распространенных заблуждений о линейной регрессии?

Ответы: