Ниже приводится вопрос о множестве визуализаций, предлагаемых в качестве «доказательства по картинке» о существовании парадокса Симпсона, и, возможно, вопрос о терминологии.
Парадокс Симпсона - довольно простое явление, которое можно описать и привести числовые примеры (причина, по которой это может произойти, глубока и интересна). Парадокс заключается в том, что существуют таблицы сопряженности 2x2x2 (Agresti, Категориальный анализ данных), где маргинальная ассоциация имеет направление, отличное от каждой условной ассоциации.
То есть сравнение соотношений в двух подгруппах населения может идти в одном направлении, но сравнение в совокупной совокупности идет в другом направлении. В символах:
Существуют такие, что a + b
но и
Это точно представлено в следующей визуализации (из Википедии ):
Дробь - это просто наклон соответствующих векторов, и в примере легко увидеть, что более короткие векторы B имеют больший наклон, чем соответствующие L векторов, но объединенный вектор B имеет меньший наклон, чем объединенный вектор L.
Существует очень распространенная визуализация во многих формах, особенно в начале этой ссылки на Википедию Симпсона:
Это отличный пример того, как скрытая переменная (которая разделяет две подгруппы) может показывать другой шаблон.
Однако математически такое изображение никоим образом не соответствует отображению таблиц сопряженности, которые лежат в основе явления, известного как парадокс Симпсона . Во-первых, линии регрессии располагаются над реальными данными набора точек, а не подсчитывают данные из таблицы сопряженности.
Кроме того, можно создавать наборы данных с произвольным отношением уклонов в линиях регрессии, но в таблицах сопряженности есть ограничение на то, насколько разными могут быть уклоны. То есть линия регрессии популяции может быть ортогональной ко всем регрессиям данных подгрупп населения. Но в «Парадоксе Симпсона» соотношения субпопуляций, хотя и не являются наклоном регрессии, не могут отклоняться слишком далеко от объединенной популяции, даже если в другом направлении (опять же, смотрите изображение сравнения соотношений из Википедии).
Для меня этого достаточно, чтобы быть озадаченным каждый раз, когда я рассматриваю последнее изображение как визуализацию парадокса Симпсона. Но так как я вижу (что я называю неправильными) примеры повсюду, мне интересно знать:
- Я пропускаю тонкое преобразование из исходных примеров таблиц сопряженности Симпсона / Юля в реальные значения, которые оправдывают визуализацию линии регрессии?
- Конечно, Симпсон является частным случаем ошибочной ошибки. Стал ли термин «парадокс Симпсона» теперь приравниваться к ошибочной ошибке, так что независимо от математики любое изменение направления через скрытую переменную можно назвать парадоксом Симпсона?
Приложение: Вот пример обобщения таблицы размером 2xmxn (или 2 на m непрерывной):
Если объединить по типу выстрела, похоже, что игрок делает больше выстрелов, когда защитники находятся ближе. Сгруппированные по типу выстрела (действительно расстояние от корзины), более интуитивно ожидаемая ситуация возникает, чем больше выстрелов, тем дальше находятся защитники.
Это изображение я считаю обобщением Симпсона для более непрерывной ситуации (расстояние защитников). Но я до сих пор не вижу, как пример линии регрессии является примером Симпсона.
Ответы:
Основная проблема в том, что вы приравниваете один простой способ показать парадокс как сам парадокс. Простой пример таблицы сопряженности не является парадоксом как таковым. Парадокс Симпсона заключается в противоречивой причинной интуиции при сравнении маргинальных и условных ассоциаций, чаще всего из-за смены знака (или экстремальных ослаблений, таких как независимость, как в оригинальном примере, приведенном самим Симпсоном , в котором нет смены знака). Парадокс возникает, когда вы интерпретируете обе оценки причинно-следственной связи, которые могут привести к различным выводам - помогает ли лечение пациенту или причиняет ему боль? И какую оценку вы должны использовать?
Это неверно! Парадокс Симпсона не является частным случаем ошибочной ошибки - если бы это было просто, тогда не было бы никакого парадокса вообще. В конце концов, если вы уверены, что некоторые отношения нарушены, вы не будете удивлены, увидев смена знака или затухание в таблицах сопряженности или коэффициентах регрессии - возможно, вы даже ожидаете этого.
Таким образом, хотя парадокс Симпсона относится к обращению (или крайнему ослаблению) «эффектов» при сравнении маргинальных и условных ассоциаций, это может быть не из-за путаницы, и априори вы не можете знать, является ли маргинальная или условная таблица «правильной». "один, чтобы проконсультироваться, чтобы ответить на ваш причинный запрос. Для этого вам нужно больше узнать о причинно-следственной структуре проблемы.
Рассмотрим эти примеры, приведенные в Перл :
Объяснение Перл того, почему это было сочтено «парадоксом» и почему оно до сих пор удивляет людей, очень правдоподобно. Возьмем, к примеру, простой случай, изображенный в (а): причинно-следственные связи не могут просто так измениться. Следовательно, если мы ошибочно предполагаем, что обе оценки являются причинно-следственными (предельными и условными), мы были бы удивлены, увидев, что такое происходит - и люди, похоже, настроены видеть причинность в большинстве ассоциаций.
Итак, вернемся к вашему основному (заглавному) вопросу:
В некотором смысле, это текущее определение парадокса Симпсона. Но очевидно, что переменная обусловленности не скрыта, ее нужно соблюдать, иначе вы не увидите, как происходит парадокс. Большая часть загадочной части парадокса проистекает из причинно-следственных соображений, и эта «скрытая» переменная не обязательно является определяющим фактором.
Таблицы констант и регрессия
источник
Да. Подобное представление категориального анализа возможно путем визуализации лог-шансов ответа на оси Y. Парадокс Симпсона выглядит примерно так же, как «грубая» линия, идущая против трендов, специфичных для страты, взвешенных на расстоянии в соответствии с логарифмическими коэффициентами реферата страты.
Вот пример с данными о приеме в Беркли
Здесь пол - это мужской / женский код, на оси X - грубые логарифмические коэффициенты при поступлении для мужчин по сравнению с женщинами, жирная пунктирная черная линия показывает гендерные предпочтения: положительный наклон указывает на смещение к поступлению мужчин. Цвета обозначают поступление в определенные отделы. Во всех случаях, кроме двух, наклон линии гендерного предпочтения для департамента отрицательный. Если эти результаты усредняются вместе в логистической модели, не учитывающей взаимодействие, общий эффект - это изменение в пользу приема женщин. Они обращались в более сложные отделы чаще, чем мужчины.
Вкратце нет. Парадокс Симпсона - это просто «что», а смущение - «почему». Доминирующая дискуссия была сосредоточена на том, где они согласны. Смешивание может оказать минимальное или незначительное влияние на оценки, и, альтернативно, парадокс Симпсона, хотя и драматичный, может быть вызван неучастниками. Как примечание, термины «скрытая» или «скрытая» переменная являются неточными. С точки зрения эпидемиолога, тщательный контроль и дизайн исследования должны позволять измерять или контролировать возможные факторы, вносящие вклад в смешанное смещение. Они не должны быть «скрытыми», чтобы быть проблемой.
Бывают моменты, когда точечные оценки могут сильно различаться, вплоть до разворота, что не является результатом смешивания. Коллайдеры и медиаторы также меняют эффекты, возможно, обращая их вспять. Причинно-следственные рассуждения предупреждают, что для изучения эффектов основной эффект следует изучать изолированно, а не корректировать их, поскольку стратифицированная оценка неверна. (Это похоже на неверное заключение о том, что посещение врача вызывает у вас заболевание или что оружие убивает людей, следовательно, люди не убивают людей).
источник