Корреляция между дихотомической и непрерывной переменной

10

Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной.

Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным.

Я выполнил тест Колмогорова-Смирнова для проверки нормальности и обнаружил, что непрерывная переменная является ненормальной и искажена (примерно для 4000 точек данных).

Я сделал тест Колмогорова-Смирнова для всего диапазона переменных. Должен ли я разделить их на группы и сделать тест? То есть, если у меня есть risk level( 0= Не рискованно, 1= Рискованно) и уровень холестерина, тогда я должен:

  • Разделите их на две группы, как

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Взять их вместе и применить тест? (Я выполнил это только для всего набора данных.)

После этого какой тест я должен сделать, если он все еще ненормальный?

РЕДАКТИРОВАТЬ: приведенный выше сценарий был просто описание, которое я пытался предоставить для моей проблемы. У меня есть набор данных, который содержит более 1000 переменных и около 4000 выборок. Они либо непрерывны, либо категоричны по своей природе. Моя задача - прогнозировать дихотомическую переменную на основе этих переменных (возможно, придумать модель логистической регрессии). Поэтому я подумал, что первоначальное исследование будет включать в себя поиск корреляции между дихотомической и непрерывной переменной.

Я пытался увидеть, как распределяются переменные и, следовательно, попытался перейти к t-критерию. Здесь я нашел нормальность как проблему. Тест Колмогорова-Смирнова дал значение значимости 0,00 по большинству этих переменных.

Должен ли я принять нормальность здесь? Асимметрия и эксцесс этих переменных также показывают, что данные искажены (> 0) почти во всех случаях.

Согласно примечанию, приведенному ниже, я буду исследовать точечно-бизериальную корреляцию далее. Но насчет распределения переменных я все еще не уверен.

Сри Ауровинд
источник
1
Корреляция (любого рода) между континуумом и бинарной (групповой) переменной не намного больше (и, возможно, меньше ...), чем просто сравнение средних (какое-то среднее) ... между группами, поэтому обычно Лучше просто сделать это!
kjetil b halvorsen

Ответы:

14

Я немного смущен; в вашем заголовке написано "корреляция", а в вашем сообщении - t-тесты. T-критерий - это критерий центрального местоположения, а точнее, отличается ли среднее значение одного набора данных от среднего значения другого набора? Корреляция, с другой стороны, показывает связь между двумя переменными. Существуют различные меры корреляции, кажется, что точечно-бизериальная корреляция подходит в вашем случае.

Вы правы, что t-тест предполагает нормальность; однако, тесты нормальности, вероятно, дадут значительные результаты даже для тривиальных ненормальностей с N 4000. T-тесты достаточно устойчивы к скромным отклонениям от нормальности, если дисперсии двух наборов данных примерно равны, а выборка размеры примерно равны. Но непараметрический тест является более устойчивым к выбросам, и большинство из них имеют мощность почти такую ​​же, как у t-теста, даже если распределение нормальное.

Тем не менее, в вашем примере вы используете «холестерин» как рискованный или не рискованный. Это почти наверняка плохая идея. Дихотомизация непрерывной переменной вызывает магическое мышление. Это говорит о том, что в какой-то момент холестерин переходит от «не рискованно» к «рискованно». Предположим, вы использовали 200 в качестве отсечки - тогда вы говорите, что кто-то с холестерином 201 такой же, как кто-то с 400, а кто-то с 199 - как кто-то с 100. Это не имеет смысла.

Питер Флом
источник
2
Я согласен и думаю, что большинство из нас согласны с тем, что дихотомия тратит впустую информацию и что это может быть грубый, грубый или неуклюжий метод. Я просто думаю, что аргумент "магического мышления" немного перегружен. Выбрать замаскировать разницу - это не то же самое, что поверить, что нет никакой разницы. Я ожидаю, что наступят времена, когда я сочту удобным и оправданным компромисс сделать категории из некоторой непрерывной переменной для аналитических целей или для целей отчетности. Просто мои 2 цента.
rolando2
2
Создание категорий из непрерывных переменных хуже, чем магическое. Дьявольское может быть лучшим словом. Если вы хотите максимизировать сложность модели, увеличить смещение и увеличить дисперсию одновременно, дихотомизация для вас. [Это максимизирует сложность, потому что потерянная информация из-за категоризации требует добавления большего количества переменных в модель для достижения того же ]R2
Фрэнк Харрелл
6

Давайте упростим вещи. С N = 4000 для уровня холестерина у вас не должно быть проблем с тем, что ваши результаты будут смещены посторонними. Поэтому вы можете использовать саму корреляцию, как подразумевается в вашем первоначальном предложении. Не имеет значения, оцениваете ли вы корреляцию с помощью методов Пирсона, Спирмена или Точка-Бизерана.

Если вместо этого вам действительно необходимо сформулировать результаты с точки зрения типичной разницы холестерина между группами высокого и низкого риска, U-критерий Манна-Уитни подходит для использования, но вы также можете использовать более информативный t- тест. С этим N (и снова с астрономическими выбросами, которые вы, несомненно, можете исключить), вам не нужно беспокоиться о том, что отсутствие нормальности поставит под угрозу ваши результаты.

rolando2
источник
Спасибо за ответ. Но если мне нужно знать, что выбросы сильно искажают, правильно ли использовать эксцесс и асимметрию для его обнаружения? В случае, если это верно выше значений эксцесса и асимметрии, я должен предположить, что распределение не является нормальным. Спасибо за ваш ответ
Шри Ауровинд
Я предполагаю, основываясь на ограниченном знании содержания, что с холестерином у вас не будет никаких значений, которые на много порядков выше, чем у других. Вот почему я думаю, что вы можете использовать параметрический метод, такой как корреляция или t-критерий. Я не думаю, что распределение нормальное. Вам не нужно, чтобы это было нормально. Кстати, в свете ответа Питера: я верил (и надеюсь), что у вас был какой-то источник статуса высокого / низкого риска, который не зависел от уровня холестерина. Я согласен, что, вероятно, бесполезно разбираться.
rolando2
2
Могу ли я предложить вам добавить раздел к вашему первоначальному вопросу, помеченный «РЕДАКТИРОВАТЬ: ....», в котором будет указано, какие вопросы остаются для вас, и на которые вы не ответили в ответах и ​​комментариях, которые вы получили до сих пор.
rolando2
Спасибо за ваше предложение. Я обновил то же самое. Извините за неоднозначный вопрос в первую очередь. Спасибо
Шри Ауровинд