Я нашел следующее объяснение в блоге и хотел бы получить больше информации о нетранзитивности корреляции:
У нас есть следующие неоспоримые факты:
- В среднем, разница в объеме мозга у мужчин и женщин
- Существует корреляция между IQ и размером мозга; корреляция составляет 0,33 и, таким образом, соответствует 10% изменчивости IQ
Из этих предпосылок 1 и 2, по-видимому, логично следует, что у женщин в среднем IQ ниже, чем у мужчин. Но это заблуждение! В статистике корреляции не являются переходными. Доказательством является то, что вам просто нужно посмотреть на результаты тестов IQ, и они показывают, что IQ мужчин и женщин в среднем не отличаются.
Я хотел бы понять эту нетранзитивность корреляции немного глубже.
Если бы корреляция между IQ и размером мозга была 0,9 (что, как я знаю, не является (1)), будет ли вывод о том, что у женщин в среднем IQ ниже, чем у мужчин, все равно будет ошибкой?
Пожалуйста, я здесь не для того, чтобы говорить об IQ (и ограниченности теста), сексизме, стереотипе женщины, высокомерии и так далее (2). Я просто хочу понять логическое обоснование ошибки.
(1) я знаю, что это не так: у неандертальцев мозг был больше, чем у homo sapiens, но он не был умнее;
(2) Я женщина, и в целом, я не считаю себя или других женщин менее умными, чем мужчины, меня не волнует IQ-тест, потому что подсчет - это ценность людей, и она не основана на интеллектуальные способности.
Первоначальный источник на французском языке:
На ле феит неоспоримый суивант:
- и вся разница в объёме головного и женского пола
- или нет, корреляция между QI и объемным мозгом; Корреляция составляет 0,33 и соответствует 10%.
Решения 1 и 2, в которых представлена логистика: все женщины и мужчины и женщины.
Mais c'est une erreur de raisonnement! В статистике, корреляции не переходят. Все это делается для того, чтобы избежать любых проблем, связанных с проведением тестов, проведенных в течение первого квартала, и нескольких месяцев, прошедших через несколько месяцев и прошедших через несколько лет.
Ответы:
Да, это все равно будет ошибкой.
Вот очень простая фигура, показывающая четыре разные ситуации. В каждом случае красные точки представляют женщин, синие точки представляют мужчин, горизонтальная ось представляет размер мозга, а вертикальная ось представляет IQ. Я сгенерировал все четыре набора данных так, чтобы:
всегда есть одинаковая разница в среднем размере мозга между мужчинами ( ) и женщинами ( 28 - произвольные единицы). Это средние показатели популяции, но эта разница достаточно велика, чтобы быть статистически значимой при любом разумном размере выборки;22 28
всегда есть нулевая разница в среднем IQ между мужчинами и женщинами (обе ), а также нулевая корреляция между полом и IQ;100
сила корреляции между размером мозга и IQ варьируется, как показано на рисунке.
В верхнем левом графике внутриполовая корреляция (рассчитывается отдельно для мужчин и отдельно для женщин, затем усредняется) составляет , как в вашей цитате. В верхнем правом подпункте общая корреляция (по мужчинам и женщинам вместе) составляет 0,3 . Обратите внимание, что в вашей цитате не указано число 0,33 . В нижнем левом графике корреляция между полами равна 0,9 , как в вашем гипотетическом примере; в нижнем правом подпункте общая корреляция составляет 0,9 .0,3 0,3 0,33 0.9 0.9
Таким образом, вы можете иметь любое значение корреляции, и не имеет значения, рассчитывается ли оно в целом или внутри группы. Каким бы ни был коэффициент корреляции, вполне возможно, что существует нулевая корреляция между полом и IQ и нулевая гендерная разница в среднем IQ.
Изучение нетранзитивности
Давайте исследуем все возможности, следуя подходу, предложенному @kjetil. Предположим , у вас есть три переменные и (без ограничения общности) Предположим , что соотношение между х 1 и х 2 является > 0 и корреляции между х 2 и х 3 является б > 0 . Вопрос в том, каково минимально возможное положительное значение корреляции λ между x 1 и x 3.Икс1, х2, х3 Икс1 Икс2 а > 0 Икс2 Икс3 б > 0 λ Икс1 Икс3 ? Иногда оно должно быть положительным или всегда может быть нулевым?
Матрица корреляции имеет вид и должна иметь неотрицательный определитель, т. Е. D e t R = - λ 2 + 2 a b λ - ( a 2 + b 2 - 1 ) ≥ 0 , что означает, что λ должен лежать между a b ± √
Мы можем решить это численно и построить минимально возможное положительное значение для различных a и b :λ a б
Неформально можно сказать, что корреляции были бы транзитивными, если бы при и b > 0 можно было сделать вывод, что λ > 0 . Мы видим , что для большинства значений через и Ь , λ может быть равно нулю, что означает , что корреляции непереходный. Однако для некоторых достаточно высоких значений a и b корреляция λ должна быть положительной , то есть, в конце концов, существует «некоторая степень транзитивности», но ограниченная только очень высокими корреляциями. Обратите внимание, что оба корреляции a и bа > 0 б > 0 λ > 0 a б λ a б λ a б должен быть высоким.
Мы можем выработать точное условие для этой «транзитивности»: как упоминалось выше, меньший корень должен быть положительным, то есть , что эквивалентноa2+b2>1. Это уравнение круга! И действительно, если вы посмотрите на рисунок выше, вы заметите, что синяя область образует четверть круга.а б - ( 1 - а2) ( 1 - б2)-------------√> 0 a2+ б2> 1
В вашем конкретном примере корреляция между полом и размером мозга довольно умеренная (возможно, ), а корреляция между размером мозга и IQ составляет b = 0,33 , что находится в пределах синей области ( a 2 + b 2 < 1 ), означая, что λ может быть положительным, отрицательным или нулевым.а = 0,5 б = 0,33 a2+ б2< 1 λ
Соответствующая фигура из оригинального исследования
Вы хотели избежать обсуждения пола и умственных способностей, но я не могу не отметить, что, взглянув на полную цифру из оригинальной статьи ( Gur et al. 1999 ), можно увидеть, что, хотя в словесной оценке IQ нет гендерных различий, существует очевидная и значительная разница в пространственном балле IQ! Сравните подзаговоры D и F.
источник
Обновить:
В ответ на комментарии я несколько обновил ответ выше. Теперь, что мы можем сделать из этого? Согласно приведенным выше расчетам, корреляция 0,9 между IQ и объемом мозга (намного больше, чем эмпирический). Тогда корреляция между полом и IQ должна быть не менее 0,62. Что это обозначает? В комментариях некоторые говорят, что это ничего не значит о средних различиях между полами. Но это не может быть правдой! Да, для нормально распределенных переменных мы можем назначить корреляцию и средства без отношений. Но пол является переменным нулевыми один, для таких переменного есть это отношение между корреляцией и средними различиями. Конкретно, IQ (скажем) нормально распределен, в то время как пол дискретен, ноль один. Предположим, что его среднее значениер = 0,5 (реально). Тогда (скажем) положительная корреляция означает, что пол имеет тенденцию быть «выше» (то есть один), если IQ выше. Этого не может быть, если не будет существенной разницы! Давайте сделаем алгебру: во-первых, чтобы упростить алгебру, давайте центрируем IQ на нуле вместо обычных 100. Это не изменит никаких корреляций или средних различий. Пусть и . С это означает поскольку . У нас есть а - это Бернулли с .μ1= Е ( х1| Икс2= 1 ) μ0= Е ( х1| Икс2= 0 ) μ = E ( x1) μ = 0 = μ1+ μ0 μ0= - μ1 Икс1∼ N ( μ = 0 , σ2) Икс2 р = 1 / 2
Но, согласно ОП, истинное значение . Тогда неравенство становится таким, что , поэтому является возможным значением. Таким образом, в истинном случае нельзя сделать выводы о средних различиях в IQ из корреляции между IQ и объемом мозга.ρ = 0,33 λ ≥ - 0,7822 λ = 0
источник
Это ситуация, в которой мне нравится использовать диаграммы путей для иллюстрации прямых и косвенных эффектов, а также то, как эти два фактора влияют на общие корреляции.
В соответствии с исходным описанием у нас есть корреляционная матрица ниже. Размер мозга имеет около 0,3 корреляции с IQ, женщины и IQ имеют 0 корреляции друг с другом. Я заполняю отрицательную корреляцию между женщиной и размером мозга, чтобы она составляла -0,3 (если бы мне нужно было предположить, что она намного меньше, но это будет служить для иллюстрации).
Если мы подходим к регрессионной модели, где IQ является функцией размера мозга и является женщиной, мы можем проиллюстрировать это на диаграмме пути. Я заполнил коэффициенты частичной регрессии на стрелках, и узел B обозначает размер мозга, а узел F обозначает женщину.
Теперь, как это безумие - при контроле размера мозга, учитывая эти корреляции, женщины имеют положительные отношения с IQ. Почему, когда предельная корреляция равна нулю? Согласно правилам с линейными диаграммами путей ( Wright, 1934 ), мы можем разложить предельную корреляцию как функцию прямого эффекта при контроле размера мозга и косвенного эффекта:
Поскольку суммарный эффект равен нулю, мы знаем, что прямой эффект должен быть просто точным противоположным знаком и величиной косвенного эффекта , следовательно, прямой эффект равен 0,099 в этом примере. Теперь, здесь мы имеем ситуацию, когда при оценке ожидаемого IQ женщин мы получаем два разных ответа, хотя, вероятно, не то, что вы изначально ожидали, задавая вопрос. При простой оценке предельного ожидаемого IQ женщин и мужчин разница равна нулю, как вы ее определили (имея нулевую корреляцию). При оценке ожидаемой разницы в зависимости от размера мозга у женщин IQ выше, чем у мужчин.
Вы можете вставить в этот пример либо большую корреляцию между размером мозга и IQ (или меньшую корреляцию между женщиной и размером мозга), учитывая ограничения, которые kjetil показывает в своем ответе. Увеличение первого делает неравенство между условным IQ женщин и мужчин еще большим в пользу женщин, уменьшение второго делает различия меньше.
источник
Обратите внимание, что хотя в цитируемом тексте говорится о «корреляции между объемом мозга и IQ» в целом, предоставленное изображение делает различие с двумя линиями тренда (т.е. оно показывает корреляцию для двух подгрупп отдельно). Поэтому мы рассмотрим их отдельно (это правильный путь).
потом
и
Тогда должно быть так, что
и это
источник