Что касается названия, идея состоит в том, чтобы использовать взаимную информацию, здесь и после MI, для оценки «корреляции» (определяемой как «насколько я знаю об A, когда я знаю B») между непрерывной переменной и категориальной переменной. Я расскажу вам свои мысли по этому вопросу через минуту, но прежде чем посоветовать вам прочитать этот другой вопрос / ответ на CrossValidated, так как он содержит некоторую полезную информацию.
Теперь, поскольку мы не можем интегрировать по категориальной переменной, нам нужно дискретизировать непрерывную. Это может быть сделано довольно легко в R, который является языком, на котором я провел большинство моих анализов. Я предпочел использовать cut
функцию, так как она также псевдоним значений, но доступны и другие варианты. Дело в том , , необходимо решить , априори количество «бункеров» (дискретные состояния) перед любой дискретизацией может быть сделано.
Основная проблема, однако, еще одна: MI колеблется от 0 до ∞, так как это нестандартная мера, единица измерения - бит. Это делает его очень трудным для использования в качестве коэффициента корреляции. Это может быть частично решено с использованием глобального коэффициента корреляции , здесь и после GCC, который является стандартизированной версией MI; GCC определяется следующим образом:
Справка: формула взята из Взаимной информации как нелинейного инструмента для анализа глобализации фондового рынка. Авторы: Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.
GCC колеблется от 0 до 1 и поэтому может быть легко использован для оценки корреляции между двумя переменными. Проблема решена, верно? Ну вроде. Потому что весь этот процесс сильно зависит от количества «корзин», которые мы решили использовать во время дискретизации. Вот результаты моих экспериментов:
На оси Y у вас есть GCC, а на оси X - количество ячеек, которые я решил использовать для дискретизации. Две строки относятся к двум различным анализам, которые я провел для двух разных (хотя и очень похожих) наборов данных.
Мне кажется, что использование ИМ в целом и НКУ, в частности, остается спорным. Тем не менее, эта путаница может быть результатом ошибки с моей стороны. В любом случае, я хотел бы услышать ваше мнение по этому вопросу (а также, есть ли у вас альтернативные методы оценки корреляции между категориальной переменной и непрерывной?).
источник
Ответы:
Существует более простой и лучший способ решения этой проблемы. Категориальная переменная фактически является просто набором индикаторных переменных. Основная идея теории измерений состоит в том, что такая переменная инвариантна к перемаркировке категорий, поэтому нет смысла использовать числовую маркировку категорий в какой-либо мере взаимосвязи между другой переменной (например, «корреляция»). , По этой причине и мера взаимосвязи между непрерывной переменной и категориальной переменной должна полностью основываться на переменных индикатора, полученных из последней.
Учитывая, что вы хотите измерить «корреляцию» между двумя переменными, имеет смысл взглянуть на корреляцию между непрерывной случайной величиной и индикаторной случайной величиной полученной из категориальной переменной. Обозначая мы имеем:X I ϕ≡P(I=1)
который дает:
Таким образом, корреляция между непрерывной случайной величиной и индикаторной случайной величиной является довольно простой функцией вероятности показателя и стандартизированного выигрыша в ожидаемом значении при условииX I ϕ X I=1 . Обратите внимание, что эта корреляция не требует какой-либо дискретизации непрерывной случайной величины.
источник