Может ли линейная регрессия быть значимой, если данные не являются линейными?

11

Я выполнил линейную регрессию, которая дала значительный результат, однако, когда я проверил диаграмму рассеяния на линейность, я не был уверен, что данные были линейными.

Существуют ли другие способы проверки линейности без проверки диаграммы рассеяния?

Может ли линейная регрессия быть значимой, если она не будет линейной?

[Отредактировано, чтобы включить графики рассеяния]

введите описание изображения здесь

введите описание изображения здесь

введите описание изображения здесь

введите описание изображения здесь

В синий
источник
3
Может быть несколько толкований вопросов и несколько ответов (но в основном ответ «да» во всех случаях, и в качестве подтверждения результатов это, безусловно, возможно в вашем случае). Можете показать график рассеяния? Тогда другие могут понять, что вы подразумеваете под данными, не являющимися линейными, и в каком смысле значимый результат оказался в любом случае.
Секст Эмпирик
5
См. Stats.stackexchange.com/search?q=anscombe+quartet для классического набора простых примеров. На stats.stackexchange.com/a/152034/919 я опубликовал алгоритм, способный создавать примеры, подходящие практически для любых обстоятельств, о которых вы только можете подумать.
whuber
YXYXYXX
Алексис
H0:β0=cH0:βx=cH0:F=cH0:R2=c
Спасибо за ответы и извинения за медленный ответ - я был в стороне от технологий! Я отредактировал пост, чтобы включить точечные диаграммы для тех регрессий, которые были значительными. Любой совет о том, как поступить, будет принята с благодарностью.
IntoTheBlue

Ответы:

18

Монотонные нелинейные отношения будут почти всегда проявляться значительными при моделировании в виде линейных моделей. Если отношения нелинейные и не монотонные, то это зависит от выборки.

y=lnxy=x3y=x2y=sinx

x[1,1]y=sinxyx

введите описание изображения здесь

x[0,π]введите описание изображения здесь

Аксакал
источник
13
+1. Но учтите, что правильный термин «монотонный». «Однообразный» означает унылый и утомительный от повторения.
whuber
22
lnxsinx
+1 Я бы также предложил определить, что означает монотонный.
Марк Уайт
Спасибо, я обновил пост, чтобы включить графики рассеяния. Любой совет о том, как поступить, будет принята с благодарностью.
IntoTheBlue
(xx¯)2
3

Да, Аксакал прав, и линейная регрессия может быть существенной, если истинные отношения нелинейны. Линейная регрессия находит линию наилучшего соответствия ваших данных и просто проверяет, существенно ли отличается наклон от 0.

Прежде чем пытаться найти статистический тест на нелинейность, я бы предложил подумать о том, что вы хотите смоделировать в первую очередь. Ожидаете ли вы линейных (нелинейных) отношений между вашими двумя переменными? Что именно вы пытаетесь раскрыть? Если имеет смысл предположить, что существует нелинейная зависимость, например, между скоростью автомобиля и тормозным путем, вы можете добавить квадратные члены (или другие преобразования) вашей независимой переменной.

Кроме того, визуальный осмотр ваших данных (диаграмма рассеяния) является очень мощным методом и важным первым шагом в вашем анализе.

Pawel
источник
YX
Также: Добро пожаловать в резюме, Павел!
Алексис
2
@ Алексис Ты прав. Но добавление квадратичного термина все еще часто встречается в некоторых текстах как быстрый и грязный способ проверки на нелинейность (понимание того, что никто не предполагает, что это единственный или даже первый способ моделирования нелинейностей), так что я не совсем так, как беспокоиться об этом отрывке.
whuber
+1 @whuber К сожалению, я сталкивался со многими исследователями, студентами и преподавателями, практикующими добавление квадратичного термина в качестве первой проверки, помимо глазного разброса графика рассеяния как «как проверить нелинейность», с отрицательным результатом, интерпретируемым как «линейный достаточно ». (Квадратичные термины действительно могут быть полезны, и я использовал их в своем собственном исследовании. :) Я предполагаю, что моя точка зрения на «быстрые и грязные» заключается в том, что материал, который преподается как легкий, становится строгим для подавляющего большинства исследователей. .. Я думаю, что непараметрические регрессии примерно так же просты, как линейные, и являются лучшим инструментом для исследования.
Алексис
@Alexis Спасибо. Я думаю, вы меня неправильно поняли. Я не рекомендовал добавлять квадратные термины для проверки нелинейности, но определенно можно привести случаи квадратичных терминов (или других преобразований. Экономические данные часто лог-преобразованы). Я думаю, что необходимо провести различие между исследовательским и пояснительным анализом. Если есть обоснованные основания для предположения о квадрате отношений, то это необходимо проверить. То, что вы предлагаете, является более исследовательским подходом.
Павел
-2

Я согласен со всем, что говорит Аксакал. Но что касается первого вопроса, я думаю, что ответ является корреляцией. Корреляция измеряет степень линейной взаимосвязи между наборами данных x и y.

Мех
источник
2
y=lnx
@ Gung Да, я делаю. Какое из его утверждений вы считаете неверным? Позвольте мне предложить, чтобы я понял, что означают слова линейный и нелинейный, и что, как и в ответе Аксакала, действительно легко найти примеры переменных с точным и нелинейным отношением. Тем не менее, корреляция является мерой линейных отношений, а корреляция +/- 1 означает, что отношения действительно линейные. Любая корреляция меньше этого означает, что связь является (не точно) линейной, но может быть достаточно близкой.
Мех
1
ОП "выполнил линейную регрессию, которая дала значительный результат", но график рассеяния подразумевал, что связь не была линейной. Корреляция, вероятно, также была бы значимой, фактически, если бы регрессия имела только 1 X-переменную, значения р от регрессии и корреляция были бы идентичны. Но если бы отношения не были линейными, несмотря на значительный регресс, они все равно не были бы линейными, несмотря на значительную корреляцию. Таким образом, существенная корреляция не является доказательством того, что отношения являются линейными.
gung - Восстановить Монику
1
r=1r=1r1
1
Это может звучать слишком тонко или даже придирчиво, но (а) я согласен с тем, что корреляция - это способ измерения линейности двумерных отношений - в конце концов, это математическая теорема, - но (б) в качестве общего положения я сомневаюсь, что это может быть истолковано как более грубый способ оценки нелинейности. Свидетельство нелинейности может быть поразительным в наборе данных с высокой абсолютной корреляцией выборки и может полностью отсутствовать в наборе данных с небольшой абсолютной корреляцией. (cc @gung)
whuber