Основное предположение об использовании регрессионных моделей для вывода заключается в том, что «все соответствующие предикторы» были включены в уравнение прогнозирования. Обоснование состоит в том, что отказ от включения важного фактического фактора приводит к смещенным коэффициентам и, следовательно, к неточным выводам (т. Е. Пропускается переменное смещение).
Но в исследовательской практике я никогда не видел никого, в том числе ничего похожего на «все соответствующие предикторы». Многие явления имеют множество важных причин, и было бы очень трудно, если не невозможно, включить их все. Необычный пример - моделирование депрессии как результата: никто не построил ничего похожего на модель, включающую «все соответствующие переменные»: например, историю родителей, личностные особенности, социальную поддержку, доход, их взаимодействие и т. Д., и т.д...
Более того, подгонка такой сложной модели привела бы к крайне нестабильным оценкам, если бы не было очень больших размеров выборки.
Мой вопрос очень прост: является ли предположение / совет «включать в себя все соответствующие предикторы» тем, что мы «говорим», но на самом деле никогда не значим? Если нет, то почему мы даем это в качестве фактического совета по моделированию?
И означает ли это, что большинство коэффициентов, вероятно, вводят в заблуждение? (например, исследование личностных факторов и депрессии, которое использует только несколько предикторов). Другими словами, насколько велика проблема для выводов наших наук?
Ответы:
Вы правы - мы редко бываем реалистичными, говоря «все соответствующие предикторы». На практике мы можем быть удовлетворены в том числе предсказателей, объясняющие основные источники изменения в . В особом случае, когда можно сделать вывод о факторе риска или лечении в обсервационном исследовании, это редко бывает достаточно хорошим. Для этого корректировка на смешивание должна быть очень агрессивной, включая переменные, которые могут быть связаны с исходом и могут быть связаны с выбором лечения или фактором риска, который вы пытаетесь опубликовать.Y
Интересно, что в нормальной линейной модели пропущенные ковариаты, особенно если они ортогональны включенным ковариатам, могут рассматриваться как просто увеличение члена ошибки. В нелинейных моделях (логистика, Кокс и многие другие) пропуск переменных может привести к смещению эффектов всех переменных, включенных в модель (например, из-за неразборчивости отношения шансов).
источник
Да, вы должны включить все «релевантные переменные», но вы должны быть умны об этом. Вы должны подумать о способах построения экспериментов, которые изолировали бы воздействие вашего феномена от несвязанных вещей, которых достаточно в реальных исследованиях (в отличие от классной комнаты). Прежде чем вы перейдете в статистику, вы должны сделать тяжелую работу в своем домене, а не в статистике.
Я призываю вас не цинично относиться к включению всех соответствующих переменных, потому что это не только благородная цель, но и потому, что это часто возможно. Мы говорим это не ради того, чтобы сказать это. Мы действительно это имеем в виду. На самом деле, разработка экспериментов и исследований, которые могут включать все релевантные переменные, - это то, что делает науку действительно интересной, и отличается от «экспериментов» механических котельных.
Чтобы мотивировать мое утверждение, я приведу пример того, как Галилей изучал ускорение. Вот его описание реального эксперимента (с этой веб-страницы ):
Обратите внимание на то, как он измерял время. Это настолько грубо, что напоминает мне, как в наши дни неестественные науки измеряют свои переменные, думают об «удовлетворенности клиентов» или «полезности». Он упоминает, что ошибка измерения была в пределах одной десятой единицы времени, кстати.
Включил ли он все соответствующие переменные? Да, он сделал. Теперь вы должны понимать, что все тела притягиваются друг к другу под действием силы тяжести. Таким образом, в теории, чтобы вычислить точную силу на шаре, вы должны добавить каждое уравнение во вселенную. Более того, гораздо важнее то, что он не учитывал поверхностное сопротивление, сопротивление воздуха, момент импульса и т. Д. Повлияло ли все это на его измерения? Да. Тем не менее, они не имели отношения к тому, что он изучал, потому что он мог уменьшить или исключить их влияние, изолируя влияние изучаемого им имущества.
источник
Для того чтобы допущения регрессионной модели выполнялись идеально, должны быть включены все соответствующие предикторы. Но ни одно из допущений в каком-либо статистическом анализе не выполняется идеально, и большая часть статистической практики основана на «Достаточно близком расстоянии».
При планировании экспериментов и надлежащей рандомизации влияние терминов, не включенных в модели, часто можно игнорировать (предполагается равным вероятности рандомизации). Но регрессия обычно используется, когда полная рандомизация не позволяет учесть все возможные переменные, не включенные в модель, поэтому ваш вопрос становится важным.
Практически в каждой регрессионной модели, которая когда-либо подходила, возможно, отсутствуют некоторые потенциальные предикторы, но «Я не знаю» без каких-либо дополнительных разъяснений не позволило бы работающим статистикам продолжать работать, поэтому мы стараемся изо всех сил, а затем пытаемся выяснить, в чем разница между предположениями и реальностью повлияет на наши результаты. В некоторых случаях разница от допущений мало что меняет, и мы не сильно беспокоимся о разнице, но в других случаях она может быть очень серьезной.
Один из вариантов, когда вы знаете, что могут быть предикторы, которые не были включены в модель, которые были бы уместны, - это провести анализ чувствительности. Это измеряет, насколько смещение было бы возможно на основе потенциальных отношений с неизмеренной переменной (ами). Эта бумага:
дает некоторые инструменты (и примеры) анализа чувствительности.
источник