Нужно ли включать «все соответствующие предикторы»?

15

Основное предположение об использовании регрессионных моделей для вывода заключается в том, что «все соответствующие предикторы» были включены в уравнение прогнозирования. Обоснование состоит в том, что отказ от включения важного фактического фактора приводит к смещенным коэффициентам и, следовательно, к неточным выводам (т. Е. Пропускается переменное смещение).

Но в исследовательской практике я никогда не видел никого, в том числе ничего похожего на «все соответствующие предикторы». Многие явления имеют множество важных причин, и было бы очень трудно, если не невозможно, включить их все. Необычный пример - моделирование депрессии как результата: никто не построил ничего похожего на модель, включающую «все соответствующие переменные»: например, историю родителей, личностные особенности, социальную поддержку, доход, их взаимодействие и т. Д., и т.д...

Более того, подгонка такой сложной модели привела бы к крайне нестабильным оценкам, если бы не было очень больших размеров выборки.

Мой вопрос очень прост: является ли предположение / совет «включать в себя все соответствующие предикторы» тем, что мы «говорим», но на самом деле никогда не значим? Если нет, то почему мы даем это в качестве фактического совета по моделированию?

И означает ли это, что большинство коэффициентов, вероятно, вводят в заблуждение? (например, исследование личностных факторов и депрессии, которое использует только несколько предикторов). Другими словами, насколько велика проблема для выводов наших наук?

ATJ
источник
6
Версия этого аргумента бушевала в психологии, экономике и социальных науках в течение 19-го века. Ученые утверждали, что статистические методы неприменимы к людям и социальным системам, потому что люди слишком разнообразны и сложны. К концу того столетия утилита победила философию: даже если мы не включаем все предикторы, мы все равно можем многому научиться. Есть мудрость во включении «соответствующих» в заголовке фразы.
whuber

Ответы:

18

Вы правы - мы редко бываем реалистичными, говоря «все соответствующие предикторы». На практике мы можем быть удовлетворены в том числе предсказателей, объясняющие основные источники изменения в . В особом случае, когда можно сделать вывод о факторе риска или лечении в обсервационном исследовании, это редко бывает достаточно хорошим. Для этого корректировка на смешивание должна быть очень агрессивной, включая переменные, которые могут быть связаны с исходом и могут быть связаны с выбором лечения или фактором риска, который вы пытаетесь опубликовать.Y

Интересно, что в нормальной линейной модели пропущенные ковариаты, особенно если они ортогональны включенным ковариатам, могут рассматриваться как просто увеличение члена ошибки. В нелинейных моделях (логистика, Кокс и многие другие) пропуск переменных может привести к смещению эффектов всех переменных, включенных в модель (например, из-за неразборчивости отношения шансов).

Фрэнк Харрелл
источник
Спасибо за полезную информацию. Не говоря об оценке эффектов лечения, я хотел бы спросить больше о прагматических последствиях этой проблемы. Если вы просмотрели статью и там были явно пропущены важные предсказатели, может ли это быть основанием для отказа? Я спрашиваю об этом, потому что: а) я никогда не слышал об этом, и б) социологи часто включают ТОЛЬКО предикторов, о которых они хотят знать больше (т. Е. Тему исследования), и пренебрегают «уже известными» факторами ( исходя из необходимости более эффективного измерения).
ATJ
Например, нередко можно увидеть модель скрытой переменной с единственным ЕДИНСТВЕННЫМ предиктором для эндогенной переменной. Говорит ли это о разрыве между областью статистики и ее реализацией в реальных тематических областях?
ATJ
6
Это, вероятно, делает. К более раннему вопросу основания для отклонения включали бы упущение важных переменных, включение которых дало бы другую интерпретацию включенных переменных, или которые бы кардинально изменили модель. Однажды я просмотрел статью о риске рака легких, которая была доступна только независимо от того, курил ли когда-либо субъект, и авторы не пытались оценить дозу курения (например, пачку лет). Я рекомендовал прямой отказ.
Фрэнк Харрелл
9

Да, вы должны включить все «релевантные переменные», но вы должны быть умны об этом. Вы должны подумать о способах построения экспериментов, которые изолировали бы воздействие вашего феномена от несвязанных вещей, которых достаточно в реальных исследованиях (в отличие от классной комнаты). Прежде чем вы перейдете в статистику, вы должны сделать тяжелую работу в своем домене, а не в статистике.

Я призываю вас не цинично относиться к включению всех соответствующих переменных, потому что это не только благородная цель, но и потому, что это часто возможно. Мы говорим это не ради того, чтобы сказать это. Мы действительно это имеем в виду. На самом деле, разработка экспериментов и исследований, которые могут включать все релевантные переменные, - это то, что делает науку действительно интересной, и отличается от «экспериментов» механических котельных.

Чтобы мотивировать мое утверждение, я приведу пример того, как Галилей изучал ускорение. Вот его описание реального эксперимента (с этой веб-страницы ):

Был взят кусок деревянной лепнины или бруса длиной около 12 локтей, шириной в пол локтя и толщиной в три пальца; на его краю был прорезан канал шириной чуть больше одного пальца; сделав этот паз очень прямым, гладким и отполированным, и облицовав его пергаментом, также максимально гладким и отполированным, мы катили по нему твердый, гладкий и очень круглый бронзовый шар. Поместив эту доску в наклонное положение, поднимая один конец на один или два локтя выше другого, мы катили мяч, как я только что сказал, вдоль канала, отмечая, как будет описано ниже, требуемое время сделать спуск. Мы повторили этот эксперимент более одного раза, чтобы измерить время с такой точностью, чтобы отклонение между двумя наблюдениями никогда не превышало одной десятой доли импульса. Выполнив эту операцию и убедившись в ее надежности, мы теперь катили мяч только на четверть длины канала; и измерив время его спуска, мы нашли именно половину первого. Затем мы попробовали другие расстояния, сравнили время на всю длину с временем на половину, или с временем на две трети, или на три четверти, или даже с любой долей; в таких экспериментах, повторяемых полных сто раз, мы всегда находили, что пройденные пространства были друг для друга как квадраты времени, и это было верно для всех наклонов плоскости, т. е. канала, по которому мы катили мяч. Мы также заметили, что времена спуска для различных наклонов плоскости имели одно и то же отношение, которое, как мы увидим позже,

Для измерения времени мы использовали большой сосуд с водой, расположенный на возвышении; ко дну этого сосуда была припаяна труба небольшого диаметра, дающая тонкую струю воды, которую мы собирали в маленький стакан во время каждого спуска, будь то по всей длине канала или по части его длины; собранная таким образом вода взвешивалась после каждого спуска на очень точных весах; Различия и отношения этих весов дали нам различия и отношения времени, и это с такой точностью, что хотя операция повторялась много, много раз, не было заметного расхождения в результатах.

dзнак равнограммT2,
dграммTd0знак равно1T0dяTяd0/dяT02/Tя2
d0dязнак равноT02Tя2

Обратите внимание на то, как он измерял время. Это настолько грубо, что напоминает мне, как в наши дни неестественные науки измеряют свои переменные, думают об «удовлетворенности клиентов» или «полезности». Он упоминает, что ошибка измерения была в пределах одной десятой единицы времени, кстати.

Включил ли он все соответствующие переменные? Да, он сделал. Теперь вы должны понимать, что все тела притягиваются друг к другу под действием силы тяжести. Таким образом, в теории, чтобы вычислить точную силу на шаре, вы должны добавить каждое уравнение во вселенную. Более того, гораздо важнее то, что он не учитывал поверхностное сопротивление, сопротивление воздуха, момент импульса и т. Д. Повлияло ли все это на его измерения? Да. Тем не менее, они не имели отношения к тому, что он изучал, потому что он мог уменьшить или исключить их влияние, изолируя влияние изучаемого им имущества.

T2

Аксакал почти наверняка бинарный
источник
Что такого грубого в его методе измерения времени? У установки будет определенная скорость, с которой вода покинет большой сосуд и войдет в чашку; при условии, что в сосуде содержится большое количество воды, этот показатель будет меняться минимально. Что еще более важно, это останется последовательным через эксперименты. Это на самом деле очень элегантный метод, учитывая, что тогда у них не было секундомеров и красивых автоматических таймеров.
JAB
@JAB, конечно, это грубо только в сравнении с секундомером или современными способами измерения времени. Вы абсолютно правы, что это очень элегантно, учитывая современное искусство измерения времени во времена Галилея. Однако я хотел подчеркнуть, что даже такой, казалось бы, низкой точности (1/10 интервала) было все еще достаточно, чтобы наблюдать соотношение между временем и расстоянием
Аксакал почти наверняка был двоичным
@JAB, один из моих любимых примеров нелепых методов измерения в физике - то, как Черенков открыл свое излучение . Он сидел в темной комнате, пока его глаза не приспособились к темноте, а затем он открывал или закрывал отверстие, из которого исходил свет, пока свет не исчезнет. Он будет записывать, сколько отверстий было открыто, чтобы определить уровень радиации. По-видимому, человеческий глаз может обнаружить разницу в свету, измеряемую в горстке фотонов! Статья состоит из 3 страниц.
Аксакал почти наверняка бинарный
6

Для того чтобы допущения регрессионной модели выполнялись идеально, должны быть включены все соответствующие предикторы. Но ни одно из допущений в каком-либо статистическом анализе не выполняется идеально, и большая часть статистической практики основана на «Достаточно близком расстоянии».

При планировании экспериментов и надлежащей рандомизации влияние терминов, не включенных в модели, часто можно игнорировать (предполагается равным вероятности рандомизации). Но регрессия обычно используется, когда полная рандомизация не позволяет учесть все возможные переменные, не включенные в модель, поэтому ваш вопрос становится важным.

Практически в каждой регрессионной модели, которая когда-либо подходила, возможно, отсутствуют некоторые потенциальные предикторы, но «Я не знаю» без каких-либо дополнительных разъяснений не позволило бы работающим статистикам продолжать работать, поэтому мы стараемся изо всех сил, а затем пытаемся выяснить, в чем разница между предположениями и реальностью повлияет на наши результаты. В некоторых случаях разница от допущений мало что меняет, и мы не сильно беспокоимся о разнице, но в других случаях она может быть очень серьезной.

Один из вариантов, когда вы знаете, что могут быть предикторы, которые не были включены в модель, которые были бы уместны, - это провести анализ чувствительности. Это измеряет, насколько смещение было бы возможно на основе потенциальных отношений с неизмеренной переменной (ами). Эта бумага:

Лин, Д.Ю. и Псаты, Б.М. и Кронмаль, Р.А. (1998): Оценка чувствительности результатов регрессии к неизмеренным конфронторам в наблюдательных исследованиях. Биометрия, 54 (3), сентябрь, с. 948-963.

дает некоторые инструменты (и примеры) анализа чувствительности.

Грег Сноу
источник