Я бросаю здесь проблему, как я получил это.
У меня есть две случайные величины. Один из которых является непрерывным (Y), а другой - дискретным и будет обозначаться как ординал (X). Я поместил ниже график, который я получил вместе с запросом.
Человек, который посылает мне данные, хочет измерить силу связи между X и Y. Я ищу идеи, которые не будут выдвигаться вперед, загруженные предположениями о том, какой процесс генерирует данные. Обратите внимание, что речь идет не о поиске непараметрического способа проверки силы отношений (как в начальной загрузке), а о поиске непараметрического способа его измерения .
С другой стороны, эффективность не является проблемой, поскольку существует много точек данных.
Ответы:
По определению порядковый масштаб - это датчик, в котором истинные расстояния между выемками
1 2 3 4
неизвестны. Это как будто вы видите правителя под наркотиками / алкоголем. Истинные расстояния могут быть любыми. Это может быть1 2 3 4
или1 2 3 4
или как угодно. Мы не можем вычислить статистику - такую как корреляция - если не определимся с расстояниями, исправим их.Одно из рассуждений может быть следующим. Поскольку наша шкала измерения, датчик, искажается неизвестным монотонным способом, мы не можем поверить в значения данных. Только порядок их величин заслуживает доверия. Без дальнейшего использования мозгов, объявить порядок как ценность. Таким образом, мы заменяем наблюдаемое распределение на равномерное распределение рангов . После этого может вычисляться коэффициент ассоциации, скажем, Pearson . Это будет Spearman , как мы знаем. Пирсон измеряет силу линейной ассоциации. Ранжирование переменных было уловкой для линеаризации той части монотонных отношений, которая объясняется тем, что распределения изначально не были однородными. Таким образом, Спирманг ч о т т ч о тр г ч о р г ч о является мерой такой монотонности в отношениях, которая может быть преобразована в линейность под действием унификации маргинальных распределений. В вопросе OP только одна из двух переменных является порядковой (а вторая - непрерывной). Таким образом, обычно нет необходимости ранжировать обе переменные. Может просто ранжировать порядковый, а затем вычислить .р
Другим подходом , альтернативным ранжированию (униформированию), может быть оптимальное масштабирование порядковой переменной. Оптимальное масштабирование - это итеративная процедура, целью которой является поиск таких расстояний в порядковом масштабе, т. Е. Найти такое монотонное преобразование, чтобы линейный между переменными был максимально увеличен. Хотя подход ранжирования основан на предпосылке «истинный масштаб соответствует данным, имеющим равномерное распределение», подход оптимального масштабирования основан на предпосылке «истинный масштаб соответствует данным, имеющим максимальный линейныйрр р «. Оптимальное масштабирование может быть выполнено в категориальной регрессии (CATREG). Однако для категориальной регрессии требуется, чтобы другая входная переменная была дискретной (не обязательно порядковой), и поэтому, если она непрерывна и имеет много уникальных значений, она должна быть произвольно сгенерирована вами ,
Есть и другие подходы. Но, в любом случае, мы преобразуем порядковый масштаб монотонно «чтобы…» (некоторое предположение или некоторая цель), потому что порядковый масштаб искажен нам неизвестным образом. В корне другое решение было бы сначала «протрезвить» и решить, что оно либо не искажено (то есть является интервалом), либо искажено известным способом (неэквивалентно), либо является номинальным.
Некоторые асимметричные подходы могут включать в себя порядковую регрессию порядковой переменной другой (интервальной / непрерывной). Или линейная регрессия этой последней по порядковой, с моделью, где предиктор принимается как полиномиальный контраст (то есть вводится как
b1X + b2X^2 + b3X^3,...
). Слабость этих подходов заключается в том, что они асимметричны: одна переменная является зависимой, а другая - независимой.источник
Есть ли какая-либо причина, по которой коэффициент корреляции ранга Спирмена (непараметрическая мера монотонной ассоциации) был бы недостаточным? Является ли монотонность слишком "фронтальной загрузкой"? Он основан на различиях ( ) в независимо сгенерированных рангах ( и ) для ваших переменных: x i y idя= хя- уя Икся Yя
Если монотонность является слишком строгим предположением, мне интересно, могут ли подходы, основанные на максимальной информации, такие как предложенные Reshef (2011, 2013), которые даже не предполагают, что функциональные отношения между и могут быть в большей степени похожи на то, чем вы являетесь находясь в поиске?YИкс Y
Рекомендации
Решеф Д., Решеф Ю., Финукейн Х., Гроссман С., МакВин Г., Тернбо П., Ландер Е., Митценмахер М. и Сабети П. (2011). Обнаружение новых ассоциаций в больших наборах данных. Science , 334 (6062): 1518–1524.
Решеф Д., Решеф Ю., Митценмахер М. и Сабети П. (2013). Анализ справедливости максимального информационного коэффициента, со сравнениями . arXiv , 14 августа.
источник