Если и - случайные величины, а и - постоянные, то
Центрирование - это особый случай и b = -E [Y] , поэтому центрирование не влияет на ковариацию.XYabCov(X+a,Y+b)=E[(X+a−E[X+a])(Y+b−E[Y+b])]=E[(X+a−E[X]−E[a])(Y+b−E[Y]−E[b])]=E[(X+a−E[X]−a)(Y+b−E[Y]−b)]=E[(X−E[X])(Y−E[Y])]=Cov(X,Y).
a=−E[X]b=−E[Y]
Кроме того, поскольку корреляция определяется как
мы можем видеть, что
поэтому, в частности, центрирование также не влияет на корреляцию.Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)−−−−−−−−−−−−−−−−−−√=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
Это была демографическая версия истории. Пример версии такой же: если мы используем
как наша оценка ковариации между и из парной выборки , затем
Covˆ(X,Y)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)
XY(X1,Y1),…,(Xn,Yn)Covˆ(X+a,Y+b)=1n∑i=1n(Xi+a−1n∑j=1n(Xj+a))(Yi+b−1n∑j=1n(Yj+b))=1n∑i=1n(Xi+a−1n∑j=1nXj−nna)(Yi+b−1n∑j=1nYj−nnb)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)=Covˆ(X,Y)
для любые и .ab
Определением ковариации и является . Выражение в этой формуле является центрированным вариантом . Таким образом, мы уже центрируем когда берем ковариацию, а центрирование является идемпотентным оператором; как только переменная отцентрирована, дальнейшее применение процесса центрирования не изменит его. Если бы формула не принимала центрированные версии переменных, то были бы все виды странных эффектов, таких как ковариация между температурой и другой переменной, отличающаяся в зависимости от того, измеряем ли мы температуру в градусах Цельсия или Кельвинах.X Y E[(X−E[X])(Y−E[Y])] X−E[X] X X
источник
«где-то» имеет тенденцию быть довольно ненадежным источником ...
Ковариация / корреляция определяются с явным центрированием . Если вы не центрируете данные, то вы не вычисляете ковариацию / корреляцию. (Точно: корреляция Пирсона)
Основное различие заключается в том, центрируетесь ли вы на основе теоретической модели (например, предполагаемое значение должно быть точно 0) или на основе данных (среднее арифметическое). Легко видеть, что среднее арифметическое даст меньшую ковариацию, чем любой другой центр.
Однако меньшая ковариация не подразумевает меньшую корреляцию или противоположность. Предположим, что у нас есть данные X = (1,2) и Y = (2,1). Легко видеть, что при центрировании арифметического среднего это даст совершенно отрицательную корреляцию, в то время как если мы знаем, что процесс генерации в среднем дает 0, данные фактически положительно коррелируют. Таким образом, в этом примере мы центрируемся - но с теоретическим ожидаемым значением 0.
Это может возникнуть легко. Предположим, у нас есть сенсорная матрица 11x11 с ячейками с номерами от -5 до +5. Вместо того, чтобы принимать среднее арифметическое, имеет смысл использовать «физическое» среднее значение нашего массива датчиков при поиске корреляции событий датчиков (если бы мы перечислили ячейки от 0 до 10, мы бы использовали 5 в качестве фиксированного среднего, и мы получим точно такие же результаты, так что выбор индексации исчезнет из анализа - хорошо).
источник