Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции
- Корреляция между 2 многоуровневыми категориальными переменными
- Корреляция между многоуровневой категориальной переменной и непрерывной переменной
- VIF (коэффициент инфляции дисперсии) для многоуровневых категориальных переменных
Я считаю, что неправильно использовать коэффициент корреляции Пирсона для вышеупомянутых сценариев, потому что Пирсон работает только для 2 непрерывных переменных.
Пожалуйста, ответьте на следующие вопросы
- Какой коэффициент корреляции лучше всего подходит для вышеуказанных случаев?
- Расчет VIF работает только для непрерывных данных, так какова альтернатива?
- Какие предположения мне нужно проверить, прежде чем использовать предложенный вами коэффициент корреляции?
- Как реализовать их в SAS & R?
r
statistics
correlation
GeorgeOfTheRF
источник
источник
Ответы:
Две категориальные переменные
Проверка, являются ли две категориальные переменные независимыми, может быть выполнена с помощью критерия независимости по критерию Хи-квадрат.
Это типичный тест хи-квадрат : если предположить, что две переменные независимы, то значения таблицы сопряженности для этих переменных должны быть распределены равномерно. И затем мы проверяем, насколько далеки от униформы фактические значения.
Также существует V Краммера, который является мерой корреляции, которая следует из этого теста
пример
Предположим, у нас есть две переменные
Мы наблюдали следующие данные:
Являются ли пол и город независимыми? Давайте выполним тест Chi-Squred. Нулевая гипотеза: они независимы, Альтернативная гипотеза заключается в том, что они каким-то образом коррелированы.
При нулевой гипотезе мы предполагаем равномерное распределение. Итак, наши ожидаемые значения следующие
Таким образом, мы запускаем тест хи-квадрат, и результирующее значение p здесь можно рассматривать как меру корреляции между этими двумя переменными.
Чтобы вычислить V Краммера, мы сначала находим нормирующий коэффициент chi-squared-max, который обычно равен размеру выборки, делим на него хи-квадрат и берем квадратный корень
р
Здесь значение p составляет 0,08 - довольно мало, но все же недостаточно, чтобы отвергнуть гипотезу независимости. Таким образом, мы можем сказать, что «корреляция» здесь составляет 0,08
Мы также вычисляем V:
И получить 0,14 (чем меньше V, тем ниже корреляция)
Рассмотрим другой набор данных
Для этого это дало бы следующее
Значение p составляет 0,72, что намного ближе к 1, а v равно 0,03 - очень близко к 0
Категориальные и числовые переменные
Для этого типа мы обычно выполняем односторонний тест ANOVA : мы вычисляем внутригрупповую дисперсию и внутригрупповую дисперсию, а затем сравниваем их.
пример
Мы хотим изучить взаимосвязь между поглощенным жиром из пончиков и типом жира, используемого для производства пончиков (пример взят здесь )
Есть ли зависимость между переменными? Для этого мы проводим тест ANOVA и видим, что значение p составляет всего 0,007 - между этими переменными нет корреляции.
р
Выход
Таким образом, мы можем принять значение p как меру корреляции и здесь.
Рекомендации
источник
kruskal-wallic
использовать вместоone-way anova
? Заранее спасибо.