Значит ли центрирование уменьшать ковариацию?

11

Предполагая, что у меня есть две независимые случайные величины, и я хочу максимально уменьшить ковариацию между ними, не теряя слишком много «сигнала», поможет ли центрирование? Я где-то читал, что среднее значение центрирования уменьшает корреляцию значительным фактором, поэтому я думаю, что для ковариации должно быть то же самое.

LVDP
источник

Ответы:

30

Если и - случайные величины, а и - постоянные, то Центрирование - это особый случай и b = -E [Y] , поэтому центрирование не влияет на ковариацию.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Кроме того, поскольку корреляция определяется как мы можем видеть, что поэтому, в частности, центрирование также не влияет на корреляцию.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


Это была демографическая версия истории. Пример версии такой же: если мы используем как наша оценка ковариации между и из парной выборки , затем

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
для любые и .ab

Артем Маврин
источник
спасибо за подробный ответ. Означает ли это, что для ковариации выборки размер выборки также не оказывает влияния? т.е. уменьшение размера выборки не уменьшает ковариацию выборки?
LVDP
3
@lvdp Вероятно, это должен быть отдельный вопрос.
Накопление
Уменьшенный размер выборки может идти только с другой выборкой. Поэтому другой образец может показывать другую ковариацию. Но поскольку ковариация выборки определяется как средняя, ​​размер выборки в принципе масштабируется.
Ник Кокс
5

Определением ковариации и является . Выражение в этой формуле является центрированным вариантом . Таким образом, мы уже центрируем когда берем ковариацию, а центрирование является идемпотентным оператором; как только переменная отцентрирована, дальнейшее применение процесса центрирования не изменит его. Если бы формула не принимала центрированные версии переменных, то были бы все виды странных эффектов, таких как ковариация между температурой и другой переменной, отличающаяся в зависимости от того, измеряем ли мы температуру в градусах Цельсия или Кельвинах.XYE[(XE[X])(YE[Y])]XE[X]XX

Acccumulation
источник
3

«где-то» имеет тенденцию быть довольно ненадежным источником ...

Ковариация / корреляция определяются с явным центрированием . Если вы не центрируете данные, то вы не вычисляете ковариацию / корреляцию. (Точно: корреляция Пирсона)

Основное различие заключается в том, центрируетесь ли вы на основе теоретической модели (например, предполагаемое значение должно быть точно 0) или на основе данных (среднее арифметическое). Легко видеть, что среднее арифметическое даст меньшую ковариацию, чем любой другой центр.

Однако меньшая ковариация не подразумевает меньшую корреляцию или противоположность. Предположим, что у нас есть данные X = (1,2) и Y = (2,1). Легко видеть, что при центрировании арифметического среднего это даст совершенно отрицательную корреляцию, в то время как если мы знаем, что процесс генерации в среднем дает 0, данные фактически положительно коррелируют. Таким образом, в этом примере мы центрируемся - но с теоретическим ожидаемым значением 0.

Это может возникнуть легко. Предположим, у нас есть сенсорная матрица 11x11 с ячейками с номерами от -5 до +5. Вместо того, чтобы принимать среднее арифметическое, имеет смысл использовать «физическое» среднее значение нашего массива датчиков при поиске корреляции событий датчиков (если бы мы перечислили ячейки от 0 до 10, мы бы использовали 5 в качестве фиксированного среднего, и мы получим точно такие же результаты, так что выбор индексации исчезнет из анализа - хорошо).

ВЫЙТИ - Anony-Mousse
источник
Спасибо @ Anony-Mousse, будет ли ковариация выборки зависеть от размера выборки? Т.е. меньший размер выборки даст меньшую ковариацию (до центрирования).
LVDP
1
Зависит от образца, очевидно. В среднем - я не знаю. Я ожидаю, что меньшие выборки в основном будут иметь большую изменчивость, поэтому, возможно, чаще более экстремальные значения. Но это только интуиция.
ВЫЙТИ - Anony-Mousse