Непараметрическая мера силы ассоциации между порядковым и непрерывным случайным числом

12

Я бросаю здесь проблему, как я получил это.

У меня есть две случайные величины. Один из которых является непрерывным (Y), а другой - дискретным и будет обозначаться как ординал (X). Я поместил ниже график, который я получил вместе с запросом.

введите описание изображения здесь

Человек, который посылает мне данные, хочет измерить силу связи между X и Y. Я ищу идеи, которые не будут выдвигаться вперед, загруженные предположениями о том, какой процесс генерирует данные. Обратите внимание, что речь идет не о поиске непараметрического способа проверки силы отношений (как в начальной загрузке), а о поиске непараметрического способа его измерения .

С другой стороны, эффективность не является проблемой, поскольку существует много точек данных.

user603
источник
1
Является ли X (дискретная переменная) порядковым или нет?
Питер Флом - Восстановить Монику
@PeterFlom: Спасибо. Да. Я добавляю это к вопросу.
user603
Под «непараметрическим» вы подразумеваете здесь, что никакое вычисление среднего значения или дисперсии не допускается?
ttnphns

Ответы:

7

По определению порядковый масштаб - это датчик, в котором истинные расстояния между выемками 1 2 3 4неизвестны. Это как будто вы видите правителя под наркотиками / алкоголем. Истинные расстояния могут быть любыми. Это может быть 1 2 3 4или 1 2 3 4или как угодно. Мы не можем вычислить статистику - такую ​​как корреляция - если не определимся с расстояниями, исправим их.

Одно из рассуждений может быть следующим. Поскольку наша шкала измерения, датчик, искажается неизвестным монотонным способом, мы не можем поверить в значения данных. Только порядок их величин заслуживает доверия. Без дальнейшего использования мозгов, объявить порядок как ценность. Таким образом, мы заменяем наблюдаемое распределение на равномерное распределение рангов . После этого может вычисляться коэффициент ассоциации, скажем, Pearson . Это будет Spearman , как мы знаем. Пирсон измеряет силу линейной ассоциации. Ранжирование переменных было уловкой для линеаризации той части монотонных отношений, которая объясняется тем, что распределения изначально не были однородными. Таким образом, Спирманг ч о т т ч о тrrhorrhoявляется мерой такой монотонности в отношениях, которая может быть преобразована в линейность под действием унификации маргинальных распределений. В вопросе OP только одна из двух переменных является порядковой (а вторая - непрерывной). Таким образом, обычно нет необходимости ранжировать обе переменные. Может просто ранжировать порядковый, а затем вычислить .r

Другим подходом , альтернативным ранжированию (униформированию), может быть оптимальное масштабирование порядковой переменной. Оптимальное масштабирование - это итеративная процедура, целью которой является поиск таких расстояний в порядковом масштабе, т. Е. Найти такое монотонное преобразование, чтобы линейный между переменными был максимально увеличен. Хотя подход ранжирования основан на предпосылке «истинный масштаб соответствует данным, имеющим равномерное распределение», подход оптимального масштабирования основан на предпосылке «истинный масштаб соответствует данным, имеющим максимальный линейныйрrr«. Оптимальное масштабирование может быть выполнено в категориальной регрессии (CATREG). Однако для категориальной регрессии требуется, чтобы другая входная переменная была дискретной (не обязательно порядковой), и поэтому, если она непрерывна и имеет много уникальных значений, она должна быть произвольно сгенерирована вами ,

Есть и другие подходы. Но, в любом случае, мы преобразуем порядковый масштаб монотонно «чтобы…» (некоторое предположение или некоторая цель), потому что порядковый масштаб искажен нам неизвестным образом. В корне другое решение было бы сначала «протрезвить» и решить, что оно либо не искажено (то есть является интервалом), либо искажено известным способом (неэквивалентно), либо является номинальным.

Некоторые асимметричные подходы могут включать в себя порядковую регрессию порядковой переменной другой (интервальной / непрерывной). Или линейная регрессия этой последней по порядковой, с моделью, где предиктор принимается как полиномиальный контраст (то есть вводится как b1X + b2X^2 + b3X^3,...). Слабость этих подходов заключается в том, что они асимметричны: одна переменная является зависимой, а другая - независимой.

ttnphns
источник
благодаря; очень хорошая идея, чтобы вычислить ранги только по одной переменной.
user603
6

Есть ли какая-либо причина, по которой коэффициент корреляции ранга Спирмена (непараметрическая мера монотонной ассоциации) был бы недостаточным? Является ли монотонность слишком "фронтальной загрузкой"? Он основан на различиях ( ) в независимо сгенерированных рангах ( и ) для ваших переменных: x i y idi=xiyixiyi

rS=16i=1ndi2n(n21)

Если монотонность является слишком строгим предположением, мне интересно, могут ли подходы, основанные на максимальной информации, такие как предложенные Reshef (2011, 2013), которые даже не предполагают, что функциональные отношения между и могут быть в большей степени похожи на то, чем вы являетесь находясь в поиске?YXY


Рекомендации

Решеф Д., Решеф Ю., Финукейн Х., Гроссман С., МакВин Г., Тернбо П., Ландер Е., Митценмахер М. и Сабети П. (2011). Обнаружение новых ассоциаций в больших наборах данных. Science , 334 (6062): 1518–1524.

Решеф Д., Решеф Ю., Митценмахер М. и Сабети П. (2013). Анализ справедливости максимального информационного коэффициента, со сравнениями . arXiv , 14 августа.

Alexis
источник
Оба выглядят как очень хорошие идеи. На самом деле, предлагаемые вами два подхода даже дополняют друг друга. Я оставлю вопрос открытым еще немного.
user603