Является ли предположение о линейности в линейной регрессии просто определением

10

Я пересматриваю линейную регрессию.

Учебник Грина гласит:

введите описание изображения здесь введите описание изображения здесь

Теперь, конечно, будут другие предположения о модели линейной регрессии, такие как . Это предположение в сочетании с предположением о линейности (которое в действительности определяет ) создает структуру модели.ϵE(ϵ|X)=0ϵ

Однако само по себе предположение о линейности не создает никакой структуры в нашей модели, поскольку может быть совершенно произвольным. Для любых переменных , независимо от отношения между ними, мы можем определить так, чтобы выполнялось предположение о линейности. Таким образом, линейность «предположение» на самом деле следует называть определение из , а не предположение.X , y ϵ ϵϵX,yϵϵ

Поэтому мне интересно :

  1. Грин неаккуратен? Должен ли он на самом деле написать: ? Это «предположение о линейности», которое фактически создает структуру в модели.E(y|X)=Xβ

  2. Или я должен согласиться с тем, что предположение о линейности не накладывает структуру на модель, а только определяет , где другие предположения будут использовать это определение для наложения структуры на модель?ϵϵϵ


Изменить : так как, кажется, есть некоторая путаница вокруг других предположений, позвольте мне добавить полный набор предположений здесь:

введите описание изображения здесь

Это из Грин, Эконометрический анализ, 7-е изд. п. 16.

user56834
источник
4
Это проницательные наблюдения (+1). Хотя, честно говоря, я полагаю, что большинство (если не все) авторы работают в рамках, в которой само значение аддитивной ошибки, такой как включает предположение, что ее распределение сосредоточено в . 0ϵ0
whuber
2
@whuber, я добавил весь набор предположений. посмотрите на А3. A3 явно указывает, что он центрирован на 0, что подразумевает, что Грин не принимает это в A1, что оставляет меня под вопросом, имеет ли A1 какое-либо логическое содержание, кроме определения . ϵ
user56834
2
Предполагаемое значение списка предположений заключается в том, что они собраны вместе, а не по отдельности. Это не демонстрирует никакой «неряшливости».
whuber
2
@ AdamO, мне кажется, слово «правильный» не имеет точного значения. Я пытаюсь более точно понять это. Мне кажется, что наиболее точная формулировка всего этого заключается в том, что предположение 1 следует называть «определением », и тогда все имеет смысл. Или я что-то упускаю, поэтому я и задал этот вопрос. К сожалению, пока я не видел прямого ответа на этот вопросϵ
user56834
2
@ Programmer2134 вы получаете неточные ответы, потому что задаете неточный вопрос. Как вы говорите, нельзя «придавать структуру модели». Если используется неправильная средняя модель ( ), то ответ характеризуется как . а остатки принимаются как сумма смещения и ошибки. Y = f ( x ) + смещение + ошибкаf(x)Y=f(x)+bias+error
AdamO

Ответы:

8
  1. Грин неаккуратен? Должен ли он на самом деле написать: ? Это «предположение о линейности», которое фактически создает структуру в модели.E(y|X)=Xβ

В каком-то смысле да и нет. С одной стороны, да, учитывая современные исследования причинно- следственных связей, он небрежен, но, как и большинство учебников по эконометрике, в том смысле, что в них не проводится четкое различие между причинно-следственными и наблюдательными величинами, что приводит к распространенным заблуждениям, подобным этому самому вопросу. Но, с другой стороны, нет, это предположение не является небрежным в том смысле, что оно действительно отличается от простого предположения .E(y|X)=Xβ

Суть дела здесь заключается в разнице между условным ожиданием и структурным (причинным) уравнением , а также его структурным (причинным) ожиданиемy E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Предположение о линейности в Грин является структурным предположением. Давайте посмотрим на простой пример. Представьте себе структурное уравнение:

y=βx+γx2+ϵ

Теперь пусть . Тогда бы мы имели:E[ϵ|x]=δxγx2

E[y|x]=βx

где . Более того, мы можем написать y = β x + ϵ ′, и у нас будет E [ ϵ | х ] = 0 . Это показывает, что мы можем иметь правильно заданное линейное условное ожидание E [ y | х ], который по определению будет иметь ортогональное возмущение, но структурное уравнение будет нелинейным.β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. ϵϵ

ϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X]

ϵX,yϵ

yxϵβ

Примечание

Стоит отметить, что большинство учебников по эконометрике сбивают с толку, когда речь идет о разнице между регрессией и структурными уравнениями и их значением. Это было задокументировано в последнее время. Вы можете проверить статью Чена и Перла здесь, а также расширенный опрос Криса Олда . Грин - одна из исследованных книг.

Карлос Синелли
источник
ϵxxyxy ϵ
1
yXϵ:=yE[Y|do(X)]=yXβϵXϵX
@ Programmer2134, кстати, ваши опасения на правильном пути, я думаю, что учебник Перла по каузальному выводу может быть интересным компаньоном для Грина!
Карлос Синелли
Кстати, я начал читать «Причинность: модели, рассуждения и умозаключения» Жемчуга некоторое время назад. Я думал, что это было очень интересно, но это было несколько абстрактно для меня. Я не вышел за пределы главы 2. Как вы думаете, «учебник по причинно-следственной связи» будет более подходящим? (т.е. вводить понятия более интуитивно).
user56834
1
E(Y|x)
0

отредактировано после комментариев OP и Мэтью Друри

Чтобы ответить на этот вопрос, я предполагаю, что Грин и OP имеют в виду следующее определение линейности: Линейность означает, что для каждого увеличения единицы этого предиктора результат увеличивается на бета ( ), где бы он ни находился в диапазоне возможных значений предиктора это увеличение на одну единицу происходит. Т.е. функция есть а не, например, или . Кроме того, это предположение сфокусировано на бета-версиях и, таким образом, относится к предикторам (или независимым переменным). y = a + b x y = a + b x 2 y = a + s i n ( x )βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

Ожидание невязок, обусловленное моделью является чем-то другим. Да, это правда, что математика за линейной регрессией определяет / пытается определить . Однако, это обычно устанавливается во всем диапазоне подогнанных / предсказанных значений для . Если вы посмотрите на конкретные части линейного предсказателя и прогнозируемым значением , можно заметить гетероскедастичности (областей , в которых изменение больше , чем в других местах), а также области , где . Причиной этого может быть нелинейная связь между и , но это не единственная причина гетероскедастичности илиE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 может произойти (см., например, отсутствие предиктора).

Из комментариев: OP заявляет, что «предположение о линейности никак не ограничивает модель, учитывая, что эпсилон произвольный и может быть любой функцией XX вообще», на что я согласен. Я думаю, что это становится ясным благодаря тому, что линейные регрессии могут соответствовать любым данным независимо от того, нарушено ли предположение о линейности или нет. Я размышляю здесь, но это может быть причиной, по которой Грин решил оставить ошибку в формуле - сохранив на потом - чтобы обозначить это при допущении линейности (а не ожидаемой ) может быть определено на основе но сохраняет некоторую ошибку , независимо от того, какие значенияϵE(ϵ|X)=0yyXϵϵпринимает. Я могу только надеяться, что позже он подтвердит актуальность .E(ϵ|X)=0

Короче говоря (по общему признанию, не полностью читая книгу Грина и проверяя его аргументацию):

  1. Грин, вероятно, ссылается на то, что бета-версии являются постоянными для всего диапазона предиктора (акцент должен быть сделан на бета в или ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. Предположение о линейности накладывает некоторую структуру на модель. Однако следует отметить, что преобразования или дополнения, такие как сплайны перед моделированием, могут привести нелинейные ассоциации в соответствие с линейной структурой регрессии.
IWS
источник
3
Это полезно, но призыв к преемственности не нужен ни в каком смысле. Механизм работает так же, если основан только на предикторах. X(0,1)
Ник Кокс
1
Вы написали но я думаю, что вы имели в виду ,. f(y)f(x)
Ник Кокс
@NickCox Я редактировал эти пункты.
IWS
1
Что вы подразумеваете под нормальностью? Если вы имеете в виду нормальность, то это неверно, потому что эпсилон не должен быть нормальным, чтобы условное ожидание равнялось нулю. Но вы имеете в виду что-то еще? Кроме того, да бета предполагается постоянным для всех наблюдений. И что вы думаете не так с моим аргументом о том, что предположение о линейности никак не ограничивает модель, учитывая, что эпсилон произвольный и может быть любой функцией вообще? Обратите внимание, что я знаю, что такое гетероскедастичность и что линейность означает линейный по параметрам, а не по переменным. X
user56834
3
Я не согласен с этим. Предположение об ожидании не связано с нормальностью, но абсолютно необходимо, чтобы иметь какое-либо понимание предположения о структурной линейности. В противном случае, как отмечено в статье, предположение о линейности не имеет смысла. Предположение о нормальности - это совсем другой зверь, и оно часто не нужно.
Мэтью Друри
-1

Я был немного смущен ответом выше, поэтому я сделаю еще один снимок. Я думаю, что вопрос на самом деле не о «классической» линейной регрессии, а о стиле этого конкретного источника. В части классической регрессии:

Однако само по себе предположение о линейности не создает никакой структуры в нашей модели.

Это абсолютно правильно. Как вы заявили, может также убить линейное отношение и сложить что-то совершенно независимое от чтобы мы вообще не могли вычислить какую-либо модель.ϵX

Грин неаккуратен? Должен ли он на самом деле написать:E(y|X)=Xβ

Я не хочу отвечать на первый вопрос, но позвольте мне суммировать предположения, необходимые для обычной линейной регрессии:

Предположим, что вы наблюдаете (вам дано) точки данных и для . Вы должны предположить, что данные вы наблюдали из независимо распределенных случайным образом одинаковых случайных величин , так что ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Существует фиксированная (не зависящая от ) такая, что для всех и случайные величины таковы, чтоiβRdYi=βXi+ϵiiϵi

  2. являются IID , а также и распространяется как ( должны быть независимы от , а)ϵiϵiN(0,σ)σi

  3. Для и переменные имеют общую плотность, то есть единственная случайная величина имеет плотностьX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Теперь вы можете бежать по обычному пути и вычислить

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

так что с помощью обычной «двойственности» между машинным обучением (минимизация функций ошибок) и теорией вероятностей (максимизация вероятностей) вы максимизируете в что фактически дает вам обычный материал "RMSE".logfY|X(y|x)β

Теперь, как указано: если автор книги, которую вы цитируете, хочет указать на это (что вы должны сделать, если вы когда-либо захотите вычислить «наилучшую возможную» линию регрессии в базовой установке), тогда да, он должен сделайте это предположение о нормальности где-то в книге.ϵ

Сейчас есть разные возможности:

  • Он не записывает это предположение в книгу. Тогда это ошибка в книге.

  • Он записывает это в форме «глобального» замечания типа «всякий раз, когда я пишу тогда обычно распределяются со средним нулем, если не указано иное». Тогда ИМХО это плохой стиль, потому что он вызывает именно ту растерянность, которую вы испытываете сейчас. Вот почему я склонен записывать предположения в некотором сокращенном виде в каждой теореме. Только тогда каждый строительный блок может быть просмотрен чисто по-своему.+ϵϵ

    • Он записывает это близко к той части, которую вы цитируете, а вы / мы просто этого не заметили (тоже возможно :-))

Однако и в строгом математическом смысле нормальная ошибка является чем-то каноническим (распределение с наибольшей энтропией [после того, как дисперсия зафиксирована], следовательно, производятся самые сильные модели), так что некоторые авторы склонны пропускать это предположение, но, тем не менее, использовать его , Формально вы абсолютно правы: они используют математику «неправильно». Всякий раз, когда они хотят придумать уравнение для плотности как указано выше, они должны знать довольно хорошо, в противном случае у вас просто есть его свойства, летающие в каждом разумном уравнении, которое вы пытаетесь записать , ϵfY|Xϵ

Фабиан Вернер
источник
3
ошибки не должны быть нормально распределены, чтобы использовать OLS.
user56834
(-1) Ошибки не должны быть нормально распределены. На самом деле они даже не должны быть независимыми или одинаково распределенными, чтобы оценка параметров была несмещенной и чтобы тесты были согласованными. Ваши гораздо более строгие спецификации необходимы для того, чтобы OLS был точным тестом.
AdamO
@AdamO: А? Так как же тогда вычислить вероятность? Или, скорее ... если вас попросят реализовать линейную регрессию: какую линию регрессии вы выбираете, если ошибка не распределяется нормально и одиночные не являются независимыми? ϵi
Фабиан Вернер
1
@FabianWerner мой выбор модели зависит от вопроса, который нужно задать. Линейная регрессия оценивает тенденцию первого порядка в наборе данных, «практическое правило», связывающее разницу в X с разницей в Y. Если ошибки обычно не распределяются, CLT Линдеберга Феллера гарантирует, что CI и PI приблизительно правильные даже в очень маленьких образцах. Если ошибки не являются независимыми (и структура зависимости неизвестна), оценки не являются предвзятыми, хотя SE могут быть неверными. Оценка ошибки сэндвича облегчает эту проблему.
AdamO