Как сумма двух переменных может объяснить большую дисперсию, чем отдельные переменные?

13

Я получаю некоторые ошеломляющие результаты для корреляции суммы с третьей переменной, когда два предиктора отрицательно коррелируют. Что вызывает эти недоумения результаты?

Пример 1: корреляция между суммой двух переменных и третьей переменной

Рассмотрим формулу 16.23 на странице 427 текста Гилфорда 1965 года, показанного ниже.

Недоумение: если обе переменные коррелируют .2 с третьей переменной и -.7 коррелируют друг с другом, формула приводит к значению .52. Как может корреляция суммы с третьей переменной быть .52, если каждая из двух переменных коррелирует только .2 с третьей переменной?

Пример 2. Какова множественная корреляция между двумя переменными и третьей переменной?

Рассмотрим формулу 16.1 на странице 404 текста Гилфорда 1965 года (показан ниже).

Недоумение: та же ситуация. Если обе переменные коррелируют .2 с третьей переменной и коррелируют -.7 друг с другом, формула приводит к значению .52. Как может корреляция суммы с третьей переменной быть .52, если каждая из двух переменных коррелирует только .2 с третьей переменной?

Я попробовал небольшое моделирование по методу Монте-Карло, и оно подтверждает результаты формул Гилфорда.

Но если каждый из двух предикторов прогнозирует 4% дисперсии третьей переменной, как их сумма может прогнозировать 1/4 дисперсии?

Источник: Фундаментальная статистика в психологии и образовании, 4-е изд., 1965.

ПОЯСНЕНИЯ

Ситуация, с которой я имею дело, включает в себя прогнозирование будущей деятельности отдельных людей на основе измерения их способностей сейчас.

Две диаграммы Венна ниже показывают мое понимание ситуации и призваны прояснить мою загадку.

Эта диаграмма Венна (рис. 1) отражает нулевой порядок r = .2 между x1 и C. В моей области есть много таких переменных-предикторов, которые скромно предсказывают критерий.

Эта диаграмма Венна (рис. 2) отражает два таких предиктора, x1 и x2, каждый из которых предсказывает C при r = .2, а два предиктора отрицательно коррелируют, r = -. 7.

Я затрудняюсь представить взаимосвязь между двумя предикторами r = .2, которые позволили бы им вместе предсказать 25% дисперсии C.

Я ищу помощи в понимании отношений между x1, x2 и C.

Если (как предлагают некоторые в ответ на мой вопрос) x2 действует как переменная-супрессор для x1, какая область на второй диаграмме Венна подавляется?

Если конкретный пример был бы полезен, мы можем считать x1 и x2 двумя человеческими способностями, а C - 4-летним GPA колледжа, 4 года спустя.

У меня возникли проблемы с представлением, как переменная-подавитель может вызвать 8% -ную объясняемую дисперсию двух r = .2 нулевого порядка r, чтобы увеличить и объяснить 25% дисперсии C. Конкретный пример был бы очень полезным ответом.

correlation multiple-regression Джоэл В.
источник

В статистике существует старое практическое правило, согласно которому дисперсия суммы множества независимых переменных равна сумме их дисперсий.

Майк Хантер

@DJohnson. Как ваш комментарий связан с заданным вопросом?

Джоэл В.

Извините, я не понимаю вопроса. Для меня очевидно, как это связано. Кроме того, это комментарий, который не имеет права на получение награды и не требует более глубокой проработки.

Майк Хантер

1

@DJohnson. Как ваш комментарий связан с заданным вопросом? Для меня это не очевидно, как это связано.

Джоэл В.

2

Ваш вопрос о значении N views может получить лучший ответ на сайте Meta CV.

mdewey

3

Это может произойти, когда оба предиктора содержат большой фактор неприятности, но с противоположным знаком, поэтому, когда вы их складываете, неприятность отменяется, и вы получаете нечто гораздо ближе к третьей переменной.

Давайте проиллюстрируем это еще более экстремальным примером. Предположим, что - независимые стандартные нормальные случайные величины. Теперь давай $X, Y \sim N(0,1)$

$A = X$

$B = -X + 0.00001Y$

Скажите, что - ваша третья переменная, - ваши два предиктора, а - скрытая переменная, о которой вы ничего не знаете. Корреляция A с Y равна 0, а B с Y очень мала, близка к 0,00001. * Но корреляция с $Y$ $A, B$ $X$ $A+B$ $Y$ равна 1.

* Существует небольшая поправка на стандартное отклонение B, составляющее чуть больше 1.

Павел
источник

Возникает ли когда-либо подобная ситуация в социальных науках?

Джоэл В.

1

В жаргоне социальных наук это в основном просто сильный эффект, смешивающий слабый эффект определенным образом. Я не специалист по общественным наукам, но я не могу себе представить, что трудно найти пример этого.

Пол

Может быть, у вас есть какие-либо примеры, помимо физических наук?

Джоэл В.

Могут ли описанные вами отношения отображаться на диаграмме Венна?

Джоэл В.

Лично я не нашел бы здесь полезной диаграмму Венна, но, если вам нужно, я бы нарисовал B в виде прямоугольника, а затем разделил бы его на два под прямоугольника, большой жирный A и маленький тощий Y. Суммирование A и B - это исключая большую часть А и оставляя крошечную часть Y.

Пол

10

Может быть полезно представить три переменные как линейные комбинации других некоррелированных переменных. Чтобы улучшить наше понимание, мы можем изобразить их геометрически, поработать с ними алгебраически и предоставить статистические описания по своему усмотрению.

Рассмотрим, то, три коррелированы с нулевым средним, единичной дисперсией переменных , , и . Из них строят следующее: $X$ $Y$ $Z$

U = X, V = (- 7 X + \sqrt{51} Y) / 10; W = (\sqrt{3} X + \sqrt{17} Y + \sqrt{55} Z) / \sqrt{75} .

$U = X,\quad V = (- 7 X + \sqrt{51}Y )/10;\quad W=(\sqrt{3} X + \sqrt{17} Y + \sqrt{55}Z)/\sqrt{75}.$

Геометрическое объяснение

На следующем рисунке представлено все, что вам нужно для понимания взаимосвязи между этими переменными.

Эта псевдо-3D диаграмма показывает , , и в системе координат Углы между векторами отражают их корреляции (коэффициенты корреляции - косинусы углов). Большая отрицательная корреляция между и отражается в тупом угле между ними. Небольшие положительные корреляции и с отражаются в их почти перпендикулярности. Однако сумма и попадает прямо под $U$ $V$ $W$ $U+V$ $X,Y,Z$ $U$ $V$ $U$ $V$ $W$ $U$ $V$ $W$ , делая острый угол (около 45 градусов): есть неожиданно высокая положительная корреляция.

Алгебраические вычисления

Для тех, кто хочет большей строгости, вот алгебра для резервного копирования геометрии в графике.

Все эти квадратные корни находятся там, чтобы у , и тоже были единичные дисперсии: это облегчает вычисление их корреляций, потому что корреляции будут равны ковариациям. Следовательно $U$ $V$ $W$

Cor (U, V) = Cov (U, V) = E (U V) = E (\sqrt{51} X Y - 7 X^{2}) / 10 = - 7 / 10 = - 0.7

$\operatorname{Cor}(U, V) = \operatorname{Cov}(U,V) = \mathbb{E}(UV) = \mathbb{E}(\sqrt{51}XY- 7 X^2)/10 = -7/10 = -0.7$

потому что и некоррелированы. Так же, $X$ $Y$

Cor (U, W) = \sqrt{3 / 75} = 1 / 5 = 0.2

$\operatorname{Cor}(U,W) = \sqrt{3/75} = 1/5 = 0.2$

и

Cor (V, W) = (- 7 \sqrt{3} + \sqrt{15} \sqrt{17}) / (10 \sqrt{75}) = 1 / 5 = 0.2.

$\operatorname{Cor}(V,W) = (-7\sqrt{3} + \sqrt{15}\sqrt{17})/(10\sqrt{75}) = 1/5 = 0.2.$

В заключение,

Cor (U + V, W) = \frac{Cov (U + V, W)}{\sqrt{Var (U + V) Var (W)}} = \frac{1 / 5 + 1 / 5}{\sqrt{Var (U) + Var (V) + 2 Cov (U, V)}} = \frac{2 / 5}{\sqrt{1 + 1 - 2 (7 / 10)}} = \frac{2 / 5}{\sqrt{3 / 5}} \approx 0.5164.

$\operatorname{Cor}(U+V,W) = \frac{\operatorname{Cov}(U+V,W)}{\sqrt{\operatorname{Var}(U+V)\operatorname{Var}(W)}} = \frac{1/5 + 1/5}{\sqrt{\operatorname{Var}(U) + \operatorname{Var}(V) + 2\operatorname{Cov}(U,V)}} = \frac{2/5}{\sqrt{1 + 1 - 2(7/10)}} = \frac{2/5}{\sqrt{3/5}}\approx 0.5164.$

Следовательно, эти три переменные имеют желаемую корреляцию.

Статистическое объяснение

Теперь мы можем понять, почему все работает так:

и имеют сильную отрицательную корреляцию , так пропорциональна негатив плюс немного «шум» в виде небольших кратного . $U$ $V$ $-7/10$ $V$ $U$ $Y$
и имеют слабую положительную корреляцию , потому что включаетсебя небольшое кратное плюс много шума в виде кратных и . $U$ $W$ $1/5$ $W$ $U$ $Y$ $Z$
и имеют слабую положительную корреляцию , потому что (при умножении на $V$ $W$ $1/5$ $W$ , которая не изменит никаких корреляций) - это сумма трех вещей: $\sqrt{75}$
- , что положительно коррелирует с; $\sqrt{17}Y$ $V$
- , чьяотрицательнаякорреляция суменьшает общую корреляцию; $-\sqrt{3}X$ $V$
- и кратное которое вносит много шума. $Z$
Тем не менее, скорее положительно коррелирует споскольку она является кратным той частикоторая не включает. $U+V = (3X + \sqrt{51}Y)/10 = \sqrt{3/100}(\sqrt{3}X + \sqrt{17}Y)$ $W$ $W$ $Z$

Whuber
источник

Есть ли способ показать это на диаграмме Венна? Несмотря на математику, я все еще не вижу логики суммы двух переменных, объясняющих 25 +% дисперсии третьей переменной, когда каждая из двух переменных, входящих в сумму, предсказывает, но 4% дисперсии этой третьей переменной , Как может 8% объясненная дисперсия стать 25% объясненной дисперсией, просто сложив две переменные?

Джоэл В.

Кроме того, есть ли практическое применение этого странного явления?

Джоэл В.

Если диаграмма Венна не подходит для представления объясненной дисперсии, можете ли вы сказать мне, почему она не подходит?

Джоэл В.

@JoelW. Хороший ответ здесь касается того, почему диаграммы Венна не соответствуют задаче иллюстрации этого явления (ближе к концу ответа): stats.stackexchange.com/a/73876/5829

Джейк Уэстфолл,

Джоэл, Коэны использовали диаграмму, подобную Венне, которую они называли «Баллантин», для анализа отклонений. См. Ww2.amstat.org/publications/jse/v10n1/kennedy.html, например. Что касается практических приложений, вам следует задавать противоположный вопрос: какие применения дисперсии и разложения дисперсии не практичны?

whuber

5

Еще один простой пример:

$z \sim \mathcal{N}(0,1)$
Let $x_1 \sim \mathcal{N}(0,1)$
Let $x_2 = z - x_1$ (hence $z = x_1 + x_2$ )

Then:

$\mathrm{Corr}(z, x_1) = 0$
$\mathrm{Corr}(z, x_2) \approx .7$
$\mathrm{Corr}(z, x_1 + x_2) = 1$

Geometrically, what's going on is like in WHuber's graphic. Conceptually, it might look something like this:

(At some point in your math career, it can be enlightening to learn that random variables are vectors, $E[XY]$ is an inner product, and hence correlation is the cosine of the angle between the two random variables.)

$x_1$ and $z$ are uncorrelated, hence they're orthogonal. Let $\theta$ denote the angle between two vectors.

$\mathrm{Corr}(z, x_1) = \cos \theta_{zx_1} = 0 \quad \quad \theta_{z,x_1} = \frac{\pi}{2}$
$\mathrm{Corr}(z, x_2) = \cos \theta_{zx_2} \approx .7 \quad \quad \theta_{z,x_2} = \frac{\pi}{4}$
$\mathrm{Corr}(z, x_1 + x_2) = \cos \theta_{z,x_1+x_2} = 1 \quad \quad \theta_{z, x_1 + x_2} = 0$

To connect to the discussion in the comments Flounderer's answer, think of $z$ as some signal, $-x_1$ as some noise, and noisy signal $x_2$ as the sum of signal $z$ and noise $-x_1$ . Adding $x_1$ to $x_2$ is equivalent to subtracting noise $-x_1$ from the noisy signal $x_2$ .

Matthew Gunn
источник

(+1) Nice example!

user795305

Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?

Joel W.

@JoelW. I'm saying

z

$z$ is a random variable following the standard normal distribution and

x_{1}

$x_1$ is an independent random variable that also follows the standard normal distribution.

z

$z$ and

x_{1}

$x_1$ are independent, hence their correlation is precisely 0. Then compute

z - x_{1}

$z - x_1$ and call that

x_{2}

$x_2$ .

Matthew Gunn

@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.

Joel W.

1

@JoelW. I do not agree because that statement is not true. Seeing

z = x_{1} + x_{2}

$z = x_1 + x_2$ implies nothing about independence between

z

$z$ and

x_{1}

$x_1$ .

Matthew Gunn

3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable $Y$ has the values

y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)

$y = (6, 7, 4, 8, 9, 6, 6, 3, 5, 10)$

and $U$ is a small multiple of $Y$ plus some error $R$ . Let's say the values of $R$ are much larger than the values of $Y$ .

r = (- 20, - 80, 100, 90, 50, 70, 40, 30, 40, 60)

$r = (-20, -80, 100, 90, 50, 70, 40, 30, 40, 60)$

and $U = R + 0.1Y$ , so that

u = (- 19.4, - 79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)

$u = (-19.4, -79.3, 100.4, 90.8, 50.9, 70.6, 40.6, 30.3, 40.5, 61.0)$

and suppose another variable $V=-R+0.1Y$ so that

v = (20.6, 80.7, - 99.6, - 89.2, - 49.1, - 69.4, - 39.4, - 29.7, - 39.5, - 59.0)

$v = (20.6, 80.7, -99.6, -89.2, -49.1, -69.4, -39.4, -29.7, -39.5, -59.0)$

Then both $U$ and $V$ have very small correlation with $Y$ , but if you add them together then the $r$ 's cancel and you get exactly $0.2Y$ , which is perfectly correlated with $Y$ .

In terms of variance explained, this makes perfect sense. $Y$ explains a very small proportion of the variance in $U$ because most of the variance in $U$ is due to $R$ . Similarly, most of the variance in $V$ is due to $R$ . But $Y$ explains all of the variance in $U+V$ . Here is a plot of each variable:

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, $A$ can explain $B$ without $B$ explaining $A$ . Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".

Flounderer
источник

@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.

gung - Reinstate Monica

Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!

Flounderer

I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.

gung - Reinstate Monica

The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?

Joel W.

Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.

Flounderer

Как сумма двух переменных может объяснить большую дисперсию, чем отдельные переменные?

Ответы:

Геометрическое объяснение

Алгебраические вычисления

Статистическое объяснение

Еще один простой пример: