Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной.
Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным.
Я выполнил тест Колмогорова-Смирнова для проверки нормальности и обнаружил, что непрерывная переменная является ненормальной и искажена (примерно для 4000 точек данных).
Я сделал тест Колмогорова-Смирнова для всего диапазона переменных. Должен ли я разделить их на группы и сделать тест? То есть, если у меня есть risk level
( 0
= Не рискованно, 1
= Рискованно) и уровень холестерина, тогда я должен:
Разделите их на две группы, как
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Взять их вместе и применить тест? (Я выполнил это только для всего набора данных.)
После этого какой тест я должен сделать, если он все еще ненормальный?
РЕДАКТИРОВАТЬ: приведенный выше сценарий был просто описание, которое я пытался предоставить для моей проблемы. У меня есть набор данных, который содержит более 1000 переменных и около 4000 выборок. Они либо непрерывны, либо категоричны по своей природе. Моя задача - прогнозировать дихотомическую переменную на основе этих переменных (возможно, придумать модель логистической регрессии). Поэтому я подумал, что первоначальное исследование будет включать в себя поиск корреляции между дихотомической и непрерывной переменной.
Я пытался увидеть, как распределяются переменные и, следовательно, попытался перейти к t-критерию. Здесь я нашел нормальность как проблему. Тест Колмогорова-Смирнова дал значение значимости 0,00 по большинству этих переменных.
Должен ли я принять нормальность здесь? Асимметрия и эксцесс этих переменных также показывают, что данные искажены (> 0) почти во всех случаях.
Согласно примечанию, приведенному ниже, я буду исследовать точечно-бизериальную корреляцию далее. Но насчет распределения переменных я все еще не уверен.
Ответы:
Я немного смущен; в вашем заголовке написано "корреляция", а в вашем сообщении - t-тесты. T-критерий - это критерий центрального местоположения, а точнее, отличается ли среднее значение одного набора данных от среднего значения другого набора? Корреляция, с другой стороны, показывает связь между двумя переменными. Существуют различные меры корреляции, кажется, что точечно-бизериальная корреляция подходит в вашем случае.
Вы правы, что t-тест предполагает нормальность; однако, тесты нормальности, вероятно, дадут значительные результаты даже для тривиальных ненормальностей с N 4000. T-тесты достаточно устойчивы к скромным отклонениям от нормальности, если дисперсии двух наборов данных примерно равны, а выборка размеры примерно равны. Но непараметрический тест является более устойчивым к выбросам, и большинство из них имеют мощность почти такую же, как у t-теста, даже если распределение нормальное.
Тем не менее, в вашем примере вы используете «холестерин» как рискованный или не рискованный. Это почти наверняка плохая идея. Дихотомизация непрерывной переменной вызывает магическое мышление. Это говорит о том, что в какой-то момент холестерин переходит от «не рискованно» к «рискованно». Предположим, вы использовали 200 в качестве отсечки - тогда вы говорите, что кто-то с холестерином 201 такой же, как кто-то с 400, а кто-то с 199 - как кто-то с 100. Это не имеет смысла.
источник
Давайте упростим вещи. С N = 4000 для уровня холестерина у вас не должно быть проблем с тем, что ваши результаты будут смещены посторонними. Поэтому вы можете использовать саму корреляцию, как подразумевается в вашем первоначальном предложении. Не имеет значения, оцениваете ли вы корреляцию с помощью методов Пирсона, Спирмена или Точка-Бизерана.
Если вместо этого вам действительно необходимо сформулировать результаты с точки зрения типичной разницы холестерина между группами высокого и низкого риска, U-критерий Манна-Уитни подходит для использования, но вы также можете использовать более информативный t- тест. С этим N (и снова с астрономическими выбросами, которые вы, несомненно, можете исключить), вам не нужно беспокоиться о том, что отсутствие нормальности поставит под угрозу ваши результаты.
источник