Измерение нелинейной зависимости

11

Ковариация между двумя случайными переменными определяет меру того, насколько тесно они линейно связаны друг с другом. Но что, если совместное распределение является циркулярным? Конечно, есть структура в распределении. Как эта структура извлекается?

бесконечность
источник

Ответы:

8

Под «круговым» я понимаю, что распределение сосредоточено на круговой области, как на этом контурном графике в формате pdf.

Контурная диаграмма кругового распределения

Если такая структура существует, хотя бы частично, естественным способом ее идентификации и измерения является усреднение распределения по кругу вокруг ее центра . (Интуитивно это означает, что для каждого возможного радиуса мы должны распределить вероятность нахождения на расстоянии от центра одинаково вокруг во всех направлениях.) Обозначая переменные как , центр должен находиться в точке первые моменты . Для усреднения удобно определить функцию радиального распределенияrr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Это фиксирует общую вероятность нахождения между расстоянием и центра. Для того, чтобы распространить его во всех направлениях, пусть случайная величина с ВПР и равномерная случайная величина на независимо от . Двумерным случайная величина является круговым среднее из . (Это делает работу, которую требует наша интуиция, от «кругового среднего», потому что (а) оно имеет правильное радиальное распределение, а именно , по построению, и (б) все направления от центра (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) одинаково вероятны.)

На данный момент у вас есть много вариантов: остается только сравнить распределение с распределением . Возможности включают расстояние и дивергенцию Кульбака-Лейблера (наряду с бесчисленными мер , связанных Расстояние: симметризо- дивергенции, Хеллингер расстояния, взаимной информации, и т.д. ). Сравнение показывает, что может иметь круглую структуру, когда она «близка» к . В этом случае структура может быть «извлечены» из свойств . Например, мера центрального положения , такая как его среднее значение или медиана, определяет «радиус» распределения(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , и стандартное отклонение (или другая мера масштаба) выражает, насколько «разложены» в радиальных направлениях относительно их центрального положения .F(X,Y)(μX,μY)

При выборке из распределения с данными , разумным тестом округлости является оценка центрального положения как обычно (со средними или медианы), а затем преобразование каждого значения в полярные координаты относительно этого предполагаемого центра. Сравните стандартное отклонение (или IQR) радиусов с их средним значением (или медианой). Для некруглых распределений отношение будет большим; для круговых распределений оно должно быть относительно небольшим. (Если вы имеете в виду конкретную модель для базового распределения, вы можете разработать выборочное распределение радиальной статистики и создать для него критерий значимости.) Отдельно проверьте угловую координату на однородность в интервале(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Он будет приблизительно равномерным для круговых распределений (и для некоторых других распределений тоже); неравномерность указывает на отклонение от округлости.

Whuber
источник
1
Спасибо! Хотя это не совсем понятно, это дает мне некоторую идею. Не могли бы вы порекомендовать почитать, где рассматриваются подобные дистрибутивы? Я был выставлен только гауссианам и другим стандартным дистрибутивам. Другой вопрос, это как-то связано с функциями радиального распределения атомов и т. Д.?
Бесконечность
1
@Infinity Дайте мне знать, какая часть не ясна, поэтому я могу попытаться исправить это. Я не знаю, где обсуждаются такие распределения, но соответствующий анализ можно найти в литературе по «круговым распределениям». Основные математические идеи действительно в некоторой степени связаны с атомной теорией орбит. Соответствующие понятия включают разделимость уравнения Шредингера в сферических координатах, построение меры Хаара из компактной группы Ли путем усреднения и сравнение орбиталей с помощью интегралов перекрытия.
whuber
Спасибо. Я очень плохо знаком с вероятностью и статистикой, так что, вероятно, из-за этого. Я не совсем понимаю, что вы подразумеваете под «усреднением распределения по кругу вокруг его центра», я думаю, что это означает усреднение всех кругов, чтобы остался только один круг с центром в и радиусе то вроде линейной регрессии. Это верно? (μX,μY)ρ
Бесконечность
Другое сомнение, которое у меня есть, заключается в том, что функция распределения видимому, описывает диск, но фигура (и то, что я имел в виду) является кольцом. Случайная переменная описывает средний круг в полярной форме. Извините, я не совсем понимаю, что будет дальше. Я понимаю, что мы сравниваем два распределения, используя некоторую метрику расстояния, но почему особенное и как это помогает, я не могу рассуждать. Прошу прощения, если вопросы кажутся слишком глупыми. F(ρ)(Ξ,H)(Ξ,H)
Бесконечность
1
@Infinity Я добавил несколько уточняющих замечаний. Вы не усредняете круги; скорее, вы усредняете (или «размазываете») всю вероятность по каждому кругу, так что, независимо от того, с чего вы начали, она в конечном итоге выглядит как моя картинка (с круговыми контурами). Если исходное распределение было действительно круглым, это усреднение не меняет его. Таким образом, сравнение дистрибутива с его усредненной версией показывает, насколько он далек от того, чтобы быть круговым.
whuber
5

Взаимная информация имеет свойства, несколько аналогичные ковариации. Ковариация - это число, равное 0 для независимых переменных и ненулевое для переменных, которые линейно зависимы. В частности, если две переменные одинаковы, то ковариация равна дисперсии (которая обычно является положительным числом). Одна проблема с ковариацией состоит в том, что она может быть нулевой, даже если две переменные не являются независимыми, при условии, что зависимость является нелинейной.

Взаимная информация (MI) является неотрицательным числом. Он равен нулю тогда и только тогда, когда две переменные являются статистически независимыми. Это свойство является более общим, чем свойство ковариации, и охватывает любые зависимости, в том числе нелинейные.

Если две переменные одинаковы, MI равен энтропии переменной (опять же, обычно положительное число). Если переменные разные и не детерминированно связаны, то MI меньше энтропии. В этом смысле MI двух переменных находится между 0 и H (энтропия), причем 0 только в случае независимости и H только в случае детерминированности.

Одно из отличий от ковариации заключается в том, что «знак» зависимости игнорируется. Например, , но .Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)

Шелдон Купер
источник
4
Не могли бы вы рассказать о том, как эта концепция дает ответ на вопрос?
остановка
3

Пожалуйста, взгляните на следующую статью из науки - она ​​точно соответствует вашей точке зрения:

Обнаружение новых ассоциаций в больших наборах данных. Автор David N. Reshef et al.

Из аннотации:

Выявление интересных отношений между парами переменных в больших наборах данных становится все более важным. Здесь мы представляем меру зависимости для двух переменных: максимальный информационный коэффициент (MIC). MIC фиксирует широкий спектр ассоциаций, как функциональных, так и нет, а для функциональных связей дает оценку, которая приблизительно равна коэффициенту определения (R ^ 2) данных относительно функции регрессии. MIC относится к большему классу максимальной статистики непараметрического исследования (MINE) на основе информации для идентификации и классификации отношений. Мы применяем MIC и MINE к наборам данных в области глобального здравоохранения, экспрессии генов, бейсбола высшей лиги и микробиоты кишечника человека и выявляем известные и новые отношения.

Дополнительный материал вы найдете здесь: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Авторы даже предоставляют бесплатный инструмент, включающий новый метод, который можно использовать с R и Python: http://www.exploredata.net/

vonjd
источник