37

Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?

statistical-significance feature-selection EconJohn
источник

1

В медицинское исследование вы бы включили его, если оно предполагает качественное взаимодействие. Посмотрите на работу Лейси Гантер, на которую я ссылался здесь раньше. Также книга Чакраборти и Муди, изданная Springer в 2013 году. Название «Статистические методы для динамических режимов лечения: обучение с подкреплением, причинно-следственная связь и персонализированная медицина».

Майкл Р. Черник

11

Учтите также, что статистическая значимость совершенно произвольна. Что важно? 0,05? 0,1? 0,001? Если существует теоретическая основа для включения предиктора, это достаточная причина, чтобы его сохранить.

Эш

2

Когда вы говорите «не является статистически значимым», вы понимаете, что уровень доверия составляет 5%, что является произвольным выбором? (И чем больше переменных, тем больше возникает проблема множественного тестирования).

17

1

@smci 0,05 = 5% уровень значимости соответствует 95% уровню достоверности, достаточной причины, чтобы не смешивать термины в одном предложении. Поскольку существуют процедуры значимости без доверительного интервала, обычно проще всего использовать тот термин, который более уместен. Исключение составляют случаи, когда вы объясняете ссылку на вводном уровне.

Ник Кокс

30

Да!

То, что коэффициент статистически неотличим от нуля, не означает, что коэффициент фактически равен нулю, что коэффициент не имеет значения. То, что эффект не проходит произвольную границу для статистической значимости, не означает, что не следует пытаться контролировать его.

Вообще говоря, проблема под рукой и ваш исследовательский дизайн должны определять, что включать в качестве регрессоров.

Несколько быстрых примеров:

И не принимайте это как исчерпывающий список. Это не трудно придумать тонны больше ...

1. Исправлены эффекты

Ситуация, в которой это часто происходит, представляет собой регресс с фиксированными эффектами .

Допустим, у вас есть данные панели и вы хотите оценить в модели: $b$

y_{i t} = b x_{i t} + u_{i} + ϵ_{i t}

$y_{it} = b x_{it} + u_i + \epsilon_{it}$

Оценка этой модели с обычными наименьшими квадратами, где рассматриваются как фиксированные эффекты, эквивалентна выполнению обычных наименьших квадратов с переменной показателя для каждого отдельного . $u_i$ $i$

В любом случае, дело в том, что переменные (то есть коэффициенты на переменных индикатора) часто плохо оцениваются. Любой человек , фиксированный эффект часто статистически незначимым. Но вы все равно включаете все переменные индикатора в регрессию, если учитываете фиксированные эффекты. $u_i$ $u_i$

(Также обратите внимание, что большинство пакетов статистики даже не дают стандартных ошибок для отдельных фиксированных эффектов, когда вы используете встроенные методы. На самом деле вас не волнует значение отдельных фиксированных эффектов. Возможно, вам не безразлична их совокупная значимость). .)

2. Функции, которые идут вместе ...

(а) Подгонка полиномиальной кривой (отзыв в шапке @NickCox в комментариях)

Если вы подгоняете полином й степени к некоторой кривой, вы почти всегда включаете полиномиальные члены более низкого порядка. $k$

Например, если бы вы подходили к полиному 2-го порядка, вы бы запустили:

y_{i} = b_{0} + b_{1} x_{i} + b_{2} x_{i}^{2} + ϵ_{i}

$y_i = b_0 + b_1 x_i + b_2 x_i^2 + \epsilon_i$

Обычно было бы довольно странно заставить и вместо этого запустить $b_1 = 0$

y_{i} = b_{0} + b_{2} x_{i}^{2} + ϵ_{i}

$y_i = b_0 + b_2 x_i^2 + \epsilon_i$

но студенты ньютоновской механики смогут представить себе исключения.

(б) AR (р) модели:

Допустим, вы оценивали модель AR (p), вы также включили бы члены более низкого порядка. Например, для AR (2) вы должны выполнить:

y_{t} = b_{0} + b_{1} y_{t - 1} + b_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_1 y_{t-1} + b_2 y_{t-2} + \epsilon_t$

y_{t} = b_{0} + b_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_2 y_{t-2} + \epsilon_t$

(в) Тригонометрические функции

$\cos$ $\sin$

В более широком смысле...

Вы хотите включить правые переменные, когда есть веские теоретические причины для этого.

И, как обсуждают другие ответы здесь и в StackExchange, пошаговый выбор переменных может создать многочисленные статистические проблемы.

Также важно различать:

коэффициент статистически неотличим от нуля с небольшой стандартной ошибкой.
коэффициент статистически неотличим от нуля с большой стандартной ошибкой.

В последнем случае сложно утверждать, что коэффициент не имеет значения. Это может быть просто плохо измерено.

Matthew Gunn
источник

u_{i}

$u_i$

b

$b$

u_{i}

$u_i$

u_{i}

$u_i$

u_{i}

$u_i$

5

Некоторые очень хорошие ответы, которые, тем не менее, уже несколько перекрывают друг друга, поэтому я ограничу свои примеры комментарием здесь. Полиномиальная аппроксимация : чаще всего квадратик должен почти всегда соответствовать двойному акту линейных и квадратичных членов. Даже если на обычных уровнях значим только один термин, их совместный эффект является ключевым. Тригонометрические предикторы Точно так же синус и косинус обычно связаны друг с другом, даже если не удается квалифицироваться на обычных уровнях. Двойные действия должны быть установлены как таковые.

Ник Кокс

2

@NickCox Так как это вики сообщества, и ваша точка зрения имеет прямое отношение к поднятой здесь, я думаю, что ваш комментарий заслуживает того, чтобы быть отредактированным в ответ на соответствующем этапе. Это слишком важно , чтобы оставаться просто комментарий, на мой взгляд, хотя я думаю , что вы правы , что это не было бы лучше , как свободно стоящий ответ

серебрянки

@ Silverfish Мэтью добро пожаловать, чтобы скопировать его. Однако мне кажется немного самонадеянным редактировать его.

Ник Кокс

1

@NickCox Ха-ха, мне все равно. :) Я добавил ваши предложения и не стесняйтесь редактировать!

Мэтью Ганн

14

Да это так. Любая переменная, которая могла бы коррелировать с вашей переменной ответа значимым образом, даже на статистически незначимом уровне, могла бы нарушить вашу регрессию, если она не включена. Это известно как занижение и приводит к тому, что оценки параметров не так точны, как могли бы быть.

https://onlinecourses.science.psu.edu/stat501/node/328

Из вышесказанного:

Модель регрессии не указана (результат 2), если в уравнении регрессии отсутствует одна или несколько важных переменных-предикторов. Эта ситуация, возможно, является наихудшим сценарием, потому что недостаточно указанная модель дает смещенные коэффициенты регрессии и смещенные прогнозы ответа. То есть при использовании модели мы бы последовательно недооценивали или переоценивали наклоны населения и средние значения населения. Чтобы усугубить и без того плохие дела, среднеквадратичная ошибка MSE имеет тенденцию переоценивать σ², тем самым давая более широкие доверительные интервалы, чем следовало бы.

двойные неприятности
источник

4

Это не совсем верно. Чтобы быть смешанной переменной, она должна вызывать объясняемую переменную и интересующую переменную (ые) переменную (ые). Если объясняющие переменные, представляющие интерес, вызывают переменную, и она влияет на результат, то это промежуточная переменная, и вы не должны контролировать ее (если вы не хотите разложить суммарный эффект).

Мартен Буис

1

Это очень неадекватная дискуссия на тему контроля за путаницей. Корреляция с результатом не является достаточным условием для смешения и может привести к неправильной спецификации причинно-следственных моделей путем контроля за посредниками: это приводит к ошибкам, таким как «прекращение курения не снижает риск сердечно-сосудистых заболеваний после контроля за содержанием кальция в коронарной артерии (CAC)». CAC является основным способом курения при сердечно-сосудистых заболеваниях. См. Причинность Жемчужиной, 2-е издание, глава 3, раздел 3.

AdamO

Не стесняйтесь редактировать. Я не думал, что он ищет такую глубину в ответе, извинения, если моя краткость привела к грубой неточности.

двойной

11

Обычно вы не включаете и не исключаете переменные для линейной регрессии из-за их значимости. Вы включаете их, потому что предполагаете, что выбранные переменные являются (хорошими) предикторами критериев регрессии. Другими словами, выбор предиктора основан на теории.

Статистическая незначимость в линейной регрессии может означать две вещи (из которых я знаю):

Незначительные предикторы не связаны с критериями. Исключите их, но имейте в виду, что ничтожность не доказывает, что они не связаны. Проверь свою теорию.
Предикторы незначительны, потому что они могут быть выражены как функция других предикторов. Набор предикторов тогда называется мультиколлинеарным. Это не делает предикторов «плохими» ни в каком смысле, но излишними.

Действительная причина исключения незначительных предикторов заключается в том, что вы ищете наименьшее подмножество предикторов, которые объясняют дисперсию критериев или большую ее часть. Если вы нашли это, проверьте свою теорию.

Wolfgang
источник

[P] редикторы критериев регрессии ? Вы можете перефразировать это.

Ричард Харди

8

В эконометрике это происходит слева и справа. Например, если вы используете ежеквартальные манекены сезонности Q2, Q3 и Q4, часто случается, что как группа они значимы, но некоторые из них не значимы по отдельности. В этом случае вы обычно держите их всех.

$y\sim x*z$ $z$ $x*z$

ОБНОВЛЕНИЕ: Другой распространенный пример - прогнозирование. Эконометрику обычно преподают с точки зрения логического вывода на экономических факультетах. В перспективе логического вывода большое внимание уделяется p-значениям и значимости, потому что вы пытаетесь понять, что вызывает то, что и так далее. В прогнозировании не так много внимания уделяется этому, потому что все, что вас волнует, - насколько хорошо модель может прогнозировать интересующую переменную.

Это похоже на приложения машинного обучения, кстати, которые в последнее время пробиваются в экономику. У вас может быть модель со всеми значимыми переменными, которая плохо прогнозируется. В ML это часто ассоциируется с так называемым «переоснащением». Очевидно, что такая модель мало используется в прогнозировании.

Аксакал
источник

1

Это кажется немного преувеличенным в некоторых моментах. Например, даже мне, как неэкономисту, ясно только из учебников, что прогнозирование широко преподавалось экономистам, по крайней мере, несколько десятилетий. Произошло ли «недавнее» (то есть точно?) Увеличение - это более тонкий момент, который я оставляю инсайдерам.

Ник Кокс

@NickCox, согласился, звучало так, как будто в учебных планах вообще не было прогнозов, что не соответствует действительности.

Аксакал

7

Вы задаете два разных вопроса:

Когда статистическая значимость не имеет значения?
Когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически значимой?

Редактировать: это относится к исходному сообщению, но может не соответствовать действительности после правок.

Что касается первого квартала, я думаю, что он слишком широк. Есть много возможных ответов, некоторые уже предоставлены. Еще один пример - построение моделей для прогнозирования (см. Источник, указанный ниже, для объяснения).

Что касается Q2, статистическая значимость не является надежным критерием для построения модели. Роб Дж. Хиндман пишет в своем блоге «Статистические тесты для выбора переменных» :

Статистическая значимость обычно не является хорошей основой для определения того, должна ли переменная быть включена в модель, несмотря на то, что многие люди, которые должны знать, лучше используют их именно для этой цели. <...> Статистические тесты были разработаны для проверки гипотез, а не для выбора переменных.

Также обратите внимание, что вы часто можете найти некоторые переменные, которые являются статистически значимыми чисто случайно (шанс контролируется вашим выбором уровня значимости). Наблюдения за тем, что переменная является статистически значимой, недостаточно для заключения о том, что переменная принадлежит модели.

Richard Hardy
источник

4

Я добавлю еще одно «да». Меня всегда учили - и я пытался передать это - что первостепенное значение при выборе ковариации - это знание предметной области, а не статистика. Например, в биостатистике, если я моделирую некоторые результаты в отношении здоровья отдельных людей, то независимо от того, что говорит регрессия, вам понадобятся чертовски хорошие аргументы, чтобы я не включал возраст, расу и пол в модель.

Это также зависит от цели вашей модели. Если цель состоит в том, чтобы лучше понять, какие факторы больше всего связаны с вашим результатом, то построение скупой модели имеет некоторые достоинства. Если вы заботитесь о предсказании, а не о понимании, то устранение ковариат может быть менее важным.

(Наконец, если вы планируете использовать статистику для выбора переменных, посмотрите, что Фрэнк Харрелл должен сказать по этому вопросу - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ и его книга « Стратегии регрессионного моделирования . Вкратце, к тому времени, когда вы использовали пошаговые или подобные статистически обоснованные стратегии для выбора лучших предикторов, любые тесты« эти хорошие предикторы? »ужасно предвзяты - конечно, они» Вы хорошие предсказатели, вы выбрали их на этой основе, и поэтому значения p для этих предсказателей ложно низкие.)

eac2222
источник

1

R^{2}

$R^{2}$

4

Единственное, что действительно говорит результат «статистической незначимости», это то, что на выбранном уровне ошибки типа I мы даже не можем сказать, является ли влияние регрессора на зависимую переменную положительным или отрицательным (см. Этот пост).

Таким образом, если мы сохраняем этот регрессор, любое обсуждение его собственного влияния на зависимую переменную не имеет статистических данных, подтверждающих это.

Но эта ошибка оценки не говорит о том, что регрессор не принадлежит структурному отношению, а лишь говорит о том, что с конкретным набором данных мы не смогли с некоторой уверенностью определить знак его коэффициента.

Таким образом, в принципе, если существуют теоретические аргументы в пользу его присутствия, регрессор следует сохранить.

Другие ответы здесь предоставили конкретные модели / ситуации, для которых такие регрессоры сохраняются в спецификации, например, ответ с упоминанием модели данных панели с фиксированными эффектами.

Alecos Papadopoulos
источник

Зачем перетягивать «уровень доверия» на обсуждение значимости? Я часто читаю чудовищности в плохих текстах и газетах, таких как «значимые при уровне доверия 99%». Конечно, между идеями есть связь, но вам не нужна эта формулировка (которая на начальном уровне сбивает с толку столько, сколько она объясняет).

Ник Кокс

@ Ник Кокс У тебя есть точка зрения. Я изменил его на «Ошибка типа I».

Алекос Пападопулос

1

Вы можете включить переменную, представляющую особый интерес, если она является предметом исследования, даже если она не является статистически значимой. Кроме того, в биостатистике клиническая значимость часто отличается от статистической значимости.

Скотт Джексон
источник

Когда следует включать переменную в регрессию, несмотря на то, что она не является статистически значимой?

Ответы:

Несколько быстрых примеров:

1. Исправлены эффекты

2. Функции, которые идут вместе ...

(а) Подгонка полиномиальной кривой (отзыв в шапке @NickCox в комментариях)

(б) AR (р) модели:

(в) Тригонометрические функции

В более широком смысле...