Предположим , у меня есть образец от совместного распределения и . Как проверить гипотезу о том , что и являются независимыми ?X Y X Y
Не делается никаких предположений относительно законов совместного или предельного распределения и (наименьшая из всех нормальных норм совместного использования, поскольку в этом случае независимость идентична корреляции, равной ).Y 0
Не делается никаких предположений о природе возможных отношений между и ; оно может быть нелинейным, поэтому переменные некоррелированы ( ), но сильно взаимозависимы ( ).Y r = 0 I = H
Я вижу два подхода:
Бин обе переменные и использовать точный тест Фишера или G-тест .
- Pro: использовать проверенные статистические тесты
- Против: зависит от биннинга
Оценить зависимость от и : (это для независимой и и , когда они полностью определяют друг друга).Y I ( X ; Y )XY1
- Pro: производит число с ясным теоретическим значением
- Con: зависит от приблизительного вычисления энтропии (т.е. повторного биннинга)
Имеют ли эти подходы смысл?
Какие еще методы используют люди?
Ответы:
В общем, это очень сложная проблема, хотя ваши переменные, по-видимому, только 1d, что помогает. Конечно, первый шаг (когда это возможно) должен состоять в том, чтобы построить данные и посмотреть, появляется ли что-нибудь у вас; ты в 2d, так что это должно быть легко.
Вот несколько подходов, которые работают в или даже в более общих настройках:Rn
Как вы упомянули, оцените взаимную информацию через энтропии. Это может быть вашим лучшим вариантом; Оценки на основе ближайших соседей хорошо работают в низких измерениях, и даже гистограммы не страшны в 2d. Если вы беспокоитесь об ошибке оценки, эта оценка проста и дает вам оценки конечной выборки (большинство других доказывают только асимптотические свойства):
Альтернативно, существуют аналогичные прямые оценки для взаимной информации, например
Критерий независимости Гильберта-Шмидта: основанный на ядре (в смысле RKHS, а не KDE) подход.
Подход Швайцера-Вольфа: основан на преобразованиях связок, и поэтому инвариантен к монотонно возрастающим преобразованиям. Я не очень знаком с этим, но я думаю, что это вычислительно проще, но, возможно, менее мощным.
источник
k
соседей). Понятия не имею, как это сравнивается с точки зрения статистической мощности / и т. Д.Hoeffding разработал общий непараметрический критерий независимости двух непрерывных переменных, используя совместные ранги для проверки . Этот тест 1948 реализован в R пакета в функции.H0:H(x,y)=F(x)G(y)
Hmisc
hoeffd
источник
Как насчет этой статьи:
http://arxiv.org/pdf/0803.4101.pdf
«Измерение и тестирование зависимости по соотношению расстояний». У Секели и Бакирова всегда есть интересные вещи.
Есть код Matlab для реализации:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Если вы найдете какой-либо другой (простой в реализации) тест на независимость, сообщите нам.
источник
Связь между дистанционной ковариацией и тестами ядра (на основе критерия независимости Гильберта-Шмидта) приведена в статье:
Сейдинович Д., Сриперумбудур Б., Греттон А. и Фукумизу К. Эквивалентность статистики на основе расстояний и RKHS при проверке гипотез, Annals of Statistics, 41 (5), с.2263-2702, 2013
Показано, что ковариация расстояния является частным случаем статистики ядра для определенного семейства ядер.
Если вы намереваетесь использовать взаимную информацию, тест, основанный на бинарной оценке MI:
Gretton, A. and Gyorfi, L., Непротиворечивые непараметрические тесты независимости, Journal of Machine Learning Research, 11, pp.1391-1423, 2010.
Если вы заинтересованы в лучшем тестировании, лучше использовать тесты ядра, а не биннинг и взаимную информацию.
Тем не менее, учитывая, что ваши переменные являются одномерными, классические непараметрические тесты независимости, такие как тесты Хеффдинга, вероятно, хороши.
источник
Редко (никогда?) В статистике вы можете продемонстрировать, что ваша выборочная статистика = значение балла. Вы можете проверить значения точек и либо исключить их, либо не исключать их. Но природа статистики заключается в том, что речь идет об изучении переменных данных. Поскольку всегда есть дисперсия, то не будет никакого способа узнать, что что-то точно не связано, нормально, гауссово и т. Д. Вы можете знать только диапазон значений для него. Вы могли бы знать, исключено ли значение из диапазона вероятных значений. Например, легко исключить никакие отношения и дать диапазон значений для того, насколько велики отношения.
Таким образом, пытаясь продемонстрировать отсутствие отношений, по существу, значение балла
relationship = 0
не будет иметь успеха. Если у вас есть диапазон показателей отношений, которые приемлемы как приблизительно 0. Тогда можно было бы разработать тест.Предполагая, что вы можете принять это ограничение, было бы полезно для людей, пытающихся помочь вам предоставить график рассеяния с кривой низкого уровня. Поскольку вы ищете решения R, попробуйте:
Основываясь на ограниченной информации, которую вы предоставили до сих пор, я думаю, что обобщенная аддитивная модель может быть наилучшей для проверки независимости. Если вы наметите это с помощью КИ вокруг прогнозируемых значений, вы сможете сделать заявления о вере в независимость. Проверьте
gam
в пакете mgcv. Помощь довольно хорошая, и здесь есть помощь в отношении CI .источник
Это может быть интересно ...
Гарсия, JE; Гонсалес-Лопес, В. А. (2014) Независимые тесты для непрерывных случайных величин, основанные на самой длинной возрастающей подпоследовательности. Журнал многомерного анализа, т. 127 с. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
источник
Если вы используете R,
cor.test
функция в пакете статистики (по умолчанию в R) может сделать это:Тест на ассоциацию / корреляцию между парными образцами. Проверьте связь между парными образцами, используя один из коэффициентов корреляции моментов произведения Пирсона, тау Кендалла или ро Спирмена.
источник