Насколько проблематично контролировать несуществующие ковариаты в наблюдательном (т.е. нерандомизированном) исследовании?

11

Миллер и Чепмен (2001) утверждают, что абсолютно неуместно контролировать несуществующие ковариаты, которые связаны как с независимыми, так и с зависимыми переменными в наблюдательном (нерандомизированном) исследовании, хотя это обычно делается в социальных науках. Насколько проблематично это сделать? Как лучше всего справиться с этой проблемой? Если вы регулярно контролируете несуществующие ковариаты в обсервационном исследовании в своем собственном исследовании, как вы это оправдываете? Наконец, стоит ли выбирать эту борьбу при обсуждении методологии с коллегами (т. Е. Действительно ли это имеет значение)?

благодаря

Миллер Г.А. и Чепмен Д.П. (2001). Непонимание анализа ковариации. Журнал аномальной психологии, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

Патрик
источник
Следующий вопрос о «интуитивном объяснении мультиколлинеарности» может оказаться полезным в вышеуказанном контексте.

Ответы:

4

Это так же проблематично, как и степень корреляции.

Ирония в том, что вы бы не стали контролировать, если бы не было какой-то ожидаемой корреляции с одной из переменных. И, если вы ожидаете, что ваша независимая переменная повлияет на вашего иждивенца, то она обязательно должна быть коррелирована с обоими. Однако, если они сильно коррелируют их, возможно, вы не должны контролировать это, поскольку это равносильно контролю фактической независимой или зависимой переменной.

Джон
источник
Я знаю, что это старый ответ, но есть ли у вас какие-то ссылки, касающиеся более подробно? Ваша первая строка, особенно те, которые обсуждают это с явной ссылкой на Миллера и Чепмена?
Иона
4

В общественных науках мы часто называем эту проблему «предвзятым отношением к лечению». Если вы рассматриваете эффект некоторого лечения (ваша независимая переменная), включая переменные, которые возникают после лечения (в причинном смысле), то ваша оценка эффекта от лечения может быть предвзятой. Если вы включите эти переменные, то в некотором смысле вы контролируете влияние лечения. Если обработка T вызывает результат Y, а другие переменные A и A вызывают Y, тогда при контроле A игнорируется влияние, которое T оказывает на Y через A. Это смещение может быть положительным или отрицательным.

В общественных науках это может быть особенно трудно, потому что A может вызвать T, который возвращает A, а A и T оба вызывают Y. Например, высокий ВВП может привести к высоким уровням демократизации (наше обращение), что приводит к скажем, более высокий ВВП, более высокий ВВП и более высокая демократизация ведут к снижению коррупции в правительстве. Поскольку ВВП вызывает демократизацию, если мы не контролируем ее, то у нас возникает проблема эндогенности или «смещение опущенных переменных». Но если мы действительно контролируем ВВП, у нас есть предвзятость лечения. Помимо использования рандомизированных испытаний, когда мы можем, мы мало что можем сделать, чтобы направить наш корабль между Сциллой и Харибдой. Гэри Кинг говорит об этих вопросах , как его выдвижение на «Hardest Нерешенные проблемы в области социальных наук» гарвардского инициативе здесь .

Чарли
источник
3

На мой взгляд, в наблюдательных исследованиях есть две основные проблемы, которые «контролируют» ряд независимых переменных. 1) У вас проблема с отсутствием объяснительных переменных и, следовательно, с ошибкой спецификации модели. 2) У вас есть проблема множественных коррелированных независимых переменных - проблема, которой нет в (хорошо) спроектированных экспериментах - и тот факт, что коэффициенты регрессии и тесты ковариат ANCOVA основаны на частичных значениях, что затрудняет их интерпретацию. Первый характерен для природы наблюдательных исследований и рассматривается в научном контексте и в процессе конкурентной разработки. Последнее является проблемой образования и опирается на четкое понимание регрессионных моделей и моделей ANCOVA, а также того, что представляют собой эти коэффициенты.

Что касается первой проблемы, то достаточно легко продемонстрировать, что если все влияния на некоторую зависимую переменную известны и включены в модель, статистические методы контроля являются эффективными и дают хорошие прогнозы и оценки эффектов для отдельных переменных. Проблема в «мягких науках» заключается в том, что все соответствующие влияния редко включаются или даже известны, и, следовательно, модели плохо определены и их трудно интерпретировать. Тем не менее, в этих областях существует много стоящих проблем. Ответы просто не уверены. Прелесть научного процесса в том, что он самокорректируется, а модели подвергаются сомнению, разработке и уточнению. Альтернатива состоит в том, чтобы предложить, что мы не можем исследовать эти проблемы с научной точки зрения, когда мы не можем планировать эксперименты.

Вторая проблема - это техническая проблема в природе моделей ANCOVA и регрессии. Аналитики должны четко понимать, что представляют собой эти коэффициенты и тесты. Корреляции между независимыми переменными влияют на коэффициенты регрессии и тесты ANCOVA. Это тесты частичных. Эти модели выявляют дисперсию в данной независимой переменной и зависимой переменной, которые связаны со всеми другими переменными в модели, а затем исследуют отношения в этих остатках. В результате отдельные коэффициенты и тесты очень трудно интерпретировать вне контекста четкого концептуального понимания всего включенного набора переменных и их взаимосвязей. Это, однако, не создает проблем для прогнозирования - просто будьте осторожны при интерпретации конкретных тестов и коэффициентов.

Дополнительное примечание: последняя проблема связана с проблемой, обсуждавшейся ранее на этом форуме, о реверсировании признаков регрессии - например, с отрицательных на положительные - когда в модель вводятся другие предикторы. При наличии коррелированных предикторов и без четкого понимания множественных и сложных взаимосвязей среди всего набора предикторов нет никаких оснований ОЖИДАТЬ (по своей природе частичный) коэффициент регрессии, чтобы иметь определенный знак. Когда существует сильная теория и четкое понимание этих взаимосвязей, такие «развороты» знака могут быть поучительными и теоретически полезными. Хотя, учитывая сложность многих социальных наук, достаточное понимание не было бы обычным явлением, я бы ожидал.

Отказ от ответственности: я социолог и общественный политик по образованию.

Brett
источник
2

Я прочитал первую страницу их статьи, и, возможно, я неправильно понял их точку зрения, но мне кажется, что они в основном обсуждают проблему включения в анализ мультиколлинеарных независимых переменных. Пример, который они берут в возрасте и классе, иллюстрирует эту идею, утверждая, что:

Возраст настолько тесно связан с оценкой в ​​школе, что устранение различий в баскетбольных способностях, связанных с возрастом, устранит значительные (возможно, почти все) различия в баскетбольных способностях, связанных с оценкой

ANCOVA - это линейная регрессия с уровнями, представленными в качестве фиктивных переменных, а ковариаты также выступают в качестве независимых переменных в уравнении регрессии. Таким образом, если я не понял их точку зрения (что вполне возможно, так как я не полностью прочитал их статью), кажется, они говорят: «не включайте зависимые ковариаты», что эквивалентно утверждению избегать мультиколлинеарных переменных.


источник
Их аргумент касается не коррелированных переменных как таковых, а переменных, которые практически неотделимы друг от друга. Переменные, для которых можно было бы почти сказать «без этого бессмысленно». Вместо степени корреляции, которая может быть оценена статистически, проблема должна решаться концептуально. Может ли оценка возрастать без увеличения возраста? Едва. Может ли депрессия усиливаться без увеличения тревоги? Это сложнее.
rolando2
1

(Самая большая) проблема заключается в том, что, поскольку групповая переменная (переменные) и ковариата (ы) вместе находятся на стороне предиктора уравнения, групповая переменная (переменные) больше не являются (являются) групповой переменной (переменными), они это те переменные с ковариатными частями, поэтому они больше не распознаются и не интерпретируются как групповые переменные, которые, как вы думали, вы изучали. Огромная проблема.

Ключевая строка на странице 45 «ANCOVA удаляет значимые отклонения из« Группы », оставляя нехарактерную, остаточную остаточную переменную группы с неопределенным отношением к конструкции, представленной Группой».

Мое текущее решение состоит в том, чтобы частично извлечь ковариату из DV, а затем передать остаток DV в обычный ANOVA, в качестве альтернативы использованию ANCOVA.

Тодд
источник
2
Но это так же, как анкова ?!
0

Некоторые из подходящих инструментов, разработанных Гэри Кингом и его коллегами, выглядят многообещающими:

Джером англим
источник
2-я ссылка больше не актуальна.
rolando2
Какой из перечисленных программных инструментов вы рекомендуете?
rolando2