Под «круговым» я понимаю, что распределение сосредоточено на круговой области, как на этом контурном графике в формате pdf.
Если такая структура существует, хотя бы частично, естественным способом ее идентификации и измерения является усреднение распределения по кругу вокруг ее центра . (Интуитивно это означает, что для каждого возможного радиуса мы должны распределить вероятность нахождения на расстоянии от центра одинаково вокруг во всех направлениях.) Обозначая переменные как , центр должен находиться в точке первые моменты . Для усреднения удобно определить функцию радиального распределенияrr(X,Y)(μX,μY)
F(ρ)=Pr[(X−μX)2+(Y−μY)2≤ρ2],ρ≥0;
F(ρ)=0,ρ<0.
Это фиксирует общую вероятность нахождения между расстоянием и центра. Для того, чтобы распространить его во всех направлениях, пусть случайная величина с ВПР и равномерная случайная величина на независимо от . Двумерным случайная величина является круговым среднее из . (Это делает работу, которую требует наша интуиция, от «кругового среднего», потому что (а) оно имеет правильное радиальное распределение, а именно , по построению, и (б) все направления от центра (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) одинаково вероятны.)
На данный момент у вас есть много вариантов: остается только сравнить распределение с распределением . Возможности включают расстояние и дивергенцию Кульбака-Лейблера (наряду с бесчисленными мер , связанных Расстояние: симметризо- дивергенции, Хеллингер расстояния, взаимной информации, и т.д. ). Сравнение показывает, что может иметь круглую структуру, когда она «близка» к . В этом случае структура может быть «извлечены» из свойств . Например, мера центрального положения , такая как его среднее значение или медиана, определяет «радиус» распределения(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , и стандартное отклонение (или другая мера масштаба) выражает, насколько «разложены» в радиальных направлениях относительно их центрального положения .F(X,Y)(μX,μY)
При выборке из распределения с данными , разумным тестом округлости является оценка центрального положения как обычно (со средними или медианы), а затем преобразование каждого значения в полярные координаты относительно этого предполагаемого центра. Сравните стандартное отклонение (или IQR) радиусов с их средним значением (или медианой). Для некруглых распределений отношение будет большим; для круговых распределений оно должно быть относительно небольшим. (Если вы имеете в виду конкретную модель для базового распределения, вы можете разработать выборочное распределение радиальной статистики и создать для него критерий значимости.) Отдельно проверьте угловую координату на однородность в интервале(xi,yi),1≤i≤n(xi,yi)(ri,θi)[0,2π) . Он будет приблизительно равномерным для круговых распределений (и для некоторых других распределений тоже); неравномерность указывает на отклонение от округлости.
Взаимная информация имеет свойства, несколько аналогичные ковариации. Ковариация - это число, равное 0 для независимых переменных и ненулевое для переменных, которые линейно зависимы. В частности, если две переменные одинаковы, то ковариация равна дисперсии (которая обычно является положительным числом). Одна проблема с ковариацией состоит в том, что она может быть нулевой, даже если две переменные не являются независимыми, при условии, что зависимость является нелинейной.
Взаимная информация (MI) является неотрицательным числом. Он равен нулю тогда и только тогда, когда две переменные являются статистически независимыми. Это свойство является более общим, чем свойство ковариации, и охватывает любые зависимости, в том числе нелинейные.
Если две переменные одинаковы, MI равен энтропии переменной (опять же, обычно положительное число). Если переменные разные и не детерминированно связаны, то MI меньше энтропии. В этом смысле MI двух переменных находится между 0 и H (энтропия), причем 0 только в случае независимости и H только в случае детерминированности.
Одно из отличий от ковариации заключается в том, что «знак» зависимости игнорируется. Например, , но .Cov(X,−X)=−Cov(X,X)=−Var(X) MI(X,−X)=MI(X,X)=H(X)
источник
Пожалуйста, взгляните на следующую статью из науки - она точно соответствует вашей точке зрения:
Обнаружение новых ассоциаций в больших наборах данных. Автор David N. Reshef et al.
Из аннотации:
Дополнительный материал вы найдете здесь: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Авторы даже предоставляют бесплатный инструмент, включающий новый метод, который можно использовать с R и Python: http://www.exploredata.net/
источник