В чем разница между контролем переменной в регрессионной модели и контролем переменной в проекте исследования?

Я полагаю, что контроль переменной в вашем проекте исследования более эффективен для уменьшения ошибки, чем контроль за ней в вашей регрессионной модели.

Не возражает ли кто-нибудь формально объяснить, как эти два случая «контроля» различаются? Насколько они сравнительно эффективны для уменьшения ошибок и получения более точных прогнозов?

regression experiment-design controlling-for-a-variable MRT
источник

«Контролируя переменную в вашем учебном плане», я предполагаю, что вы имеете в виду обеспечение постоянной переменной для всех учебных единиц или манипулирование переменной, чтобы уровень этой переменной был независимо установлен для каждой учебной единицы. То есть контроль за переменной в дизайне вашего исследования означает, что вы проводите настоящий эксперимент . Преимущество этого состоит в том, что это может помочь с выводом причинности .

Теоретически, контроль переменной в вашей регрессионной модели также может помочь в выводе причинности. Однако это только в том случае, если вы управляете для каждой переменной, которая имеет прямую причинную связь с ответом. Если вы опустите такую переменную (возможно, вы не знали, чтобы включить ее), и она коррелирует с любой другой переменной, то ваши причинные выводы будут смещены и неверны. На практике мы не знаем всех соответствующих переменных, поэтому статистический контроль является довольно рискованным делом, которое опирается на большие предположения, которые вы не можете проверить.

Тем не менее, ваш вопрос требует «уменьшения ошибок и получения более точных прогнозов», а не определения причинно-следственной связи. Это другая проблема. Если бы вы планировали заданную переменную с помощью плана исследования, все отклонения в ответе на эту переменную были бы устранены. С другой стороны, если вы просто контролируете переменную, вы оцениваете ее эффект, который подвержен ошибке выборки как минимум. Другими словами, статистический контроль в долгосрочной перспективе не был бы столь же хорош в уменьшении остаточной дисперсии в вашей выборке.

Но если вы заинтересованы в уменьшении ошибок и получении более точных прогнозов, вероятно, вы прежде всего заботитесь о свойствах выборки, а не о точности внутри выборки. И в этом заключается загвоздка. Когда вы управляете переменной, манипулируя ею в некоторой форме (удерживая ее постоянной и т. Д.), Вы создаете ситуацию, которая является более искусственной, чем исходное, естественное наблюдение. То есть эксперименты, как правило, имеют меньшую внешнюю валидность / обобщаемость, чем обсервационные исследования.

В случае, если неясно, примером настоящего эксперимента, который содержит нечто постоянное, может быть оценка лечения на мышиной модели с использованием инбредных мышей, которые все генетически идентичны. С другой стороны, примером контроля за переменной может быть представление семейного анамнеза болезни с помощью фиктивного кода и включение этой переменной в модель множественной регрессии (ср., Как именно можно «контролировать другие переменные»? И как Может ли добавление 2-го IV сделать 1-е IV значимым? ).

Gung - Восстановить Монику
источник

Великолепные объяснения! @ Gung

Аарон Зенг

В чем разница между контролем переменной в регрессионной модели и контролем переменной в проекте исследования?

Ответы: