Как мне проверить, что две непрерывные переменные независимы?

48

Предположим , у меня есть образец от совместного распределения и . Как проверить гипотезу о том , что и являются независимыми ?X Y X Y(Xn,Yn),n=1..NXYXY

Не делается никаких предположений относительно законов совместного или предельного распределения и (наименьшая из всех нормальных норм совместного использования, поскольку в этом случае независимость идентична корреляции, равной ).Y 0XY0

Не делается никаких предположений о природе возможных отношений между и ; оно может быть нелинейным, поэтому переменные некоррелированы ( ), но сильно взаимозависимы ( ).Y r = 0 I = HXYr=0I=H

Я вижу два подхода:

  1. Бин обе переменные и использовать точный тест Фишера или G-тест .

    • Pro: использовать проверенные статистические тесты
    • Против: зависит от биннинга
  2. Оценить зависимость от и : (это для независимой и и , когда они полностью определяют друг друга).Y I ( X ; Y )XYI(X;Y)H(X,Y)XY10XY1

    • Pro: производит число с ясным теоретическим значением
    • Con: зависит от приблизительного вычисления энтропии (т.е. повторного биннинга)

Имеют ли эти подходы смысл?

Какие еще методы используют люди?

ДСН
источник
3
Посмотрите на корреляцию расстояния .
Рэй Купман
2
зависимость не имеет смысла, когда речь идет о непрерывных переменных. Непрерывные переменные имеют бесконечную энтропию. Здесь вы не можете заменить дифференциальной энтропией, потому что дифференциальная энтропия несопоставима с взаимной информацией. В то время как взаимная информация имеет «абсолютное» означает, дифференциальная энтропия может быть положительной, нулевой или даже отрицательной, в зависимости от установок , которые вы используете для измерения переменных и . H X YI(X;Y)/H(X;Y)HXY
Фонини
@fonini: конечно, я говорил о бинн-переменных. Спасибо за ваш комментарий, хотя.
SdS

Ответы:

27

В общем, это очень сложная проблема, хотя ваши переменные, по-видимому, только 1d, что помогает. Конечно, первый шаг (когда это возможно) должен состоять в том, чтобы построить данные и посмотреть, появляется ли что-нибудь у вас; ты в 2d, так что это должно быть легко.

Вот несколько подходов, которые работают в или даже в более общих настройках:Rn

Дугал
источник
Не могли бы вы вкратце упомянуть, как эти подходы сравниваются с дистанционной корреляцией ? Я использую DC для просеивания больших наборов данных (ну, для меня это большое), поэтому мне интересны любые ваши комментарии. Спасибо!
pteetor
1
@pteetor Это интересно, я раньше не сталкивался с корреляцией расстояний. В вычислительном отношении это кажется более дорогим, чем подход оценки энтропии для больших размеров выборки, потому что вам нужны матрицы полного расстояния (где для оценки энтропии вы можете использовать индексы, чтобы получить только первых kсоседей). Понятия не имею, как это сравнивается с точки зрения статистической мощности / и т. Д.
Дугал
4
Для более поздних читателей: статья 2013 года об эквивалентности статистических данных на основе расстояний и RKHS при проверке гипотез . Авторы Сейдинович и соавт. показывает, что корреляция расстояний и другие энергетические расстояния являются частными случаями MMD, лежащего в основе HSIC, и обсуждает взаимосвязь с точки зрения мощности теста и так далее.
Дугал
19

Hoeffding разработал общий непараметрический критерий независимости двух непрерывных переменных, используя совместные ранги для проверки . Этот тест 1948 реализован в R пакета в функции.H0:H(x,y)=F(x)G(y)Hmischoeffd

Фрэнк Харрелл
источник
6

Как насчет этой статьи:

http://arxiv.org/pdf/0803.4101.pdf

«Измерение и тестирование зависимости по соотношению расстояний». У Секели и Бакирова всегда есть интересные вещи.

Есть код Matlab для реализации:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Если вы найдете какой-либо другой (простой в реализации) тест на независимость, сообщите нам.

JLP
источник
2
Добро пожаловать на сайт, @JLp. Мы надеемся создать постоянное хранилище высококачественной статистической информации в форме вопросов и ответов. Таким образом, одна вещь, о которой мы беспокоимся, это linkrot. Имея это в виду, не могли бы вы дать краткое изложение того, что находится в этой статье / как она отвечает на вопросы, на случай, если ссылка обанкротится. Это также поможет будущим читателям этой ветки решить, хотят ли они потратить время на чтение газеты.
gung - Восстановить Монику
@ Gung: это то же самое, что энергия
SDS
5

Связь между дистанционной ковариацией и тестами ядра (на основе критерия независимости Гильберта-Шмидта) приведена в статье:

Сейдинович Д., Сриперумбудур Б., Греттон А. и Фукумизу К. Эквивалентность статистики на основе расстояний и RKHS при проверке гипотез, Annals of Statistics, 41 (5), с.2263-2702, 2013

Показано, что ковариация расстояния является частным случаем статистики ядра для определенного семейства ядер.

Если вы намереваетесь использовать взаимную информацию, тест, основанный на бинарной оценке MI:

Gretton, A. and Gyorfi, L., Непротиворечивые непараметрические тесты независимости, Journal of Machine Learning Research, 11, pp.1391-1423, 2010.

Если вы заинтересованы в лучшем тестировании, лучше использовать тесты ядра, а не биннинг и взаимную информацию.

Тем не менее, учитывая, что ваши переменные являются одномерными, классические непараметрические тесты независимости, такие как тесты Хеффдинга, вероятно, хороши.

Артур Греттон
источник
4

Редко (никогда?) В статистике вы можете продемонстрировать, что ваша выборочная статистика = значение балла. Вы можете проверить значения точек и либо исключить их, либо не исключать их. Но природа статистики заключается в том, что речь идет об изучении переменных данных. Поскольку всегда есть дисперсия, то не будет никакого способа узнать, что что-то точно не связано, нормально, гауссово и т. Д. Вы можете знать только диапазон значений для него. Вы могли бы знать, исключено ли значение из диапазона вероятных значений. Например, легко исключить никакие отношения и дать диапазон значений для того, насколько велики отношения.

Таким образом, пытаясь продемонстрировать отсутствие отношений, по существу, значение балла relationship = 0не будет иметь успеха. Если у вас есть диапазон показателей отношений, которые приемлемы как приблизительно 0. Тогда можно было бы разработать тест.

Предполагая, что вы можете принять это ограничение, было бы полезно для людей, пытающихся помочь вам предоставить график рассеяния с кривой низкого уровня. Поскольку вы ищете решения R, попробуйте:

scatter.smooth(x, y)

Основываясь на ограниченной информации, которую вы предоставили до сих пор, я думаю, что обобщенная аддитивная модель может быть наилучшей для проверки независимости. Если вы наметите это с помощью КИ вокруг прогнозируемых значений, вы сможете сделать заявления о вере в независимость. Проверьте gamв пакете mgcv. Помощь довольно хорошая, и здесь есть помощь в отношении CI .

Джон
источник
2

Это может быть интересно ...

Гарсия, JE; Гонсалес-Лопес, В. А. (2014) Независимые тесты для непрерывных случайных величин, основанные на самой длинной возрастающей подпоследовательности. Журнал многомерного анализа, т. 127 с. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

user78122
источник
2
Этот пост будет полезен для более подробной информации о том, что в статье, особенно потому, что это за платным доступом.
Эрик
это бесплатно cran.r-project.org/web/packages/LIStest/LIStest.pdf
user78122
-1

Если вы используете R, cor.testфункция в пакете статистики (по умолчанию в R) может сделать это:

Тест на ассоциацию / корреляцию между парными образцами. Проверьте связь между парными образцами, используя один из коэффициентов корреляции моментов произведения Пирсона, тау Кендалла или ро Спирмена.

cor.test(x, y,method="spearman")
Шичэн Го
источник
1
Это пропускает нелинейные отношения, которые явно являются темой вопроса.
SdS