Мое понимание того, как работает ковариация, заключается в том, что коррелированные данные должны иметь несколько высокую ковариацию. Я сталкивался с ситуацией, когда мои данные выглядят коррелированными (как показано на диаграмме рассеяния), но ковариация близка к нулю. Как ковариация данных может быть нулевой, если они коррелированы?
import numpy as np
x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788,
0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681,
0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152,
0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536])
x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334,
0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528,
0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655,
0.03213286, 0.03827639, 0.02999955, 0.0371424 , 0.0279254 ])
print np.cov(x1, x2)
array([[ 3.95773132e-05, 2.59159589e-05],
[ 2.59159589e-05, 1.72006225e-05]])
python
descriptive-statistics
covariance
килоджоулей
источник
источник
Ответы:
Величина ковариации зависит от величины данных и того, насколько близко эти точки данных разбросаны по среднему значению этих данных. Это легко увидеть, если взглянуть на формулу:
В вашем случае отклонение
x1
иx2
указывает на среднее значениеx1
иx2
:Теперь, если вы умножите эти два вектора друг на друга, вы, очевидно, получите довольно маленькие числа:
Теперь возьмите сумму и разделите на и вы получите ковариацию:n - 1
Вот почему величина ковариации мало говорит о силе того, как
x1
и какx2
меняются. Путем стандартизации (или нормализации) ковариации, то есть деления ее на произведение стандартного отклоненияx1
иx2
(очень похоже на ковариацию, т.е.2.609127e-05
),Вы получаете высокий коэффициент корреляции, , который подтверждает то, что вы можете видеть на своем графике.r = 0,99
источник
Давайте поговорим о том, что можно увидеть из беглого взгляда на сюжет и некоторых проверок на разумность (именно такие вещи можно делать как само собой разумеющееся при просмотре данных, просто вооружившись несколькими основными фактами):
Тем не менее, обратите внимание , давайте сначала , что версия -denominator стандартного отклонения не может превышать половины диапазона (в знаменатель версию можно, но с более , чем несколько не много наблюдений).N n - 1
Диапазоны по обеим переменным составляют порядка 0,02 (примерно), поэтому отклонения должны составлять не более половины этого значения в квадрате или около .10- 4
Следовательно, наблюдаемые значения отклонений в вашем выводе имеют смысл; они оба меньше этого, но более десятой части.
Абсолютное значение ковариации должно быть не более, чем среднее геометрическое двух дисперсий (в противном случае корреляция может превышать 1). Таким образом, абсолютное значение ковариации не должно превышать произведения диапазонов.14
Поэтому, если диапазон обеих переменных был близок к , мы не могли ожидать, что абсолютная ковариация превысит .0.02 ( 0,02 )2/ 4= 10- 4
Из этого очень грубого анализа ничего не выглядит удивительным.
Более точный анализ получается из фактического выполнения расчетов с использованием более точных диапазонов, а затем обдумывания форм предельных распределений:0,023 0,015 8,6 × 10- 5
диапазоны чуть меньше и соответственно, поэтому ковариация не должна превышать , но поскольку маргинальные распределения не являются почти симметричными двухточечными, оно должно быть немного меньше этого.
В самом деле, если мы скажем, что они не так далеки от однородности, ковариация будет ограничена чем-то ближе к 1/12 продукта, а не к 1/4, т. Е. Для примерно одинаковых вариаций с этими диапазонами это будет меньше, чем примерно - но не намного меньше, потому что корреляция высокая. [Эти вариации не одинаковы - они оставлены наклонными - но это достаточно близко для наших нынешних целей.]2,9 × 10- 5
Поэтому, просто взглянув на диапазон каждой переменной и приблизительное представление о предельных распределениях и корреляции на графике, я ожидал бы, что ковариация будет немного меньше, чем . Это на самом деле около .2,9 × 10- 5 2,6 × 10- 5
(Не так уж и плохо для быстрого расчета за конверт, начиная с диапазонов до двух значащих цифр!)
источник