Данные по определенным переменным типам имеют тенденцию быть ненормальными при измерении в определенных группах населения (например, уровни депрессии в группе людей с серьезным депрессивным расстройством). Учитывая, что Пирсона предполагает нормальность, насколько надежна статистика теста в условиях ненормальности?
У меня есть ряд переменных, для которых я хотел бы получить коэффициенты корреляции, но асимметрия Z для некоторых из этих переменных значительна при p <.001 (и это для сравнительно небольшой выборки). Я пробовал некоторые преобразования, но улучшения в дистрибутивах в лучшем случае только незначительны.
Я собираюсь придерживаться непараметрического анализа? И не только для корреляций, но и для других видов анализа?
correlation
археоптерикс
источник
источник
Ответы:
Краткий ответ: очень ненадежный. Корреляция является мерой линейной зависимости , и когда одна переменная не может быть записана как линейная функция другой (и все еще имеет заданное предельное распределение), вы не можете иметь идеальную (положительную или отрицательную) корреляцию. Фактически, возможные значения корреляций могут быть строго ограничены.
Проблема заключается в том, что в то время как соотношение населения всегда между и 1 , точным диапазоном достижимо в значительной степени зависит от предельных распределений. Быстрое доказательство и демонстрация:−1 1
Достижимый диапазон корреляции
Если имеет функцию распределения H и маргинальные функции распределения F и G , существуют некоторые довольно хорошие верхние и нижние оценки для H , H -(X,Y) H F G H
называется границами Фреше. Это
Н - ( х , у )
Границы сами являются функциями распределения. Пусть имеет равномерное распределение. Верхняя граница является функцией распределения ( X , Y ) = ( F - ( UU а нижняя граница является функцией распределения ( F - ( - U ) , G - ( 1 - U) ) ) .(X,Y)=(F−(U),G−(U)) (F−(−U),G−(1−U))
Теперь, используя этот вариант по формуле для ковариации, мы видимчто мы получаем максимальное и минимальное соотношениекогда Н равна Н + и Н - соответственно, то есть, когда Y представляет собой (положительно или отрицательно, соответственно) монотонная функция X .
Примеры
Вот несколько примеров (без доказательств):
Когда и Y нормально распределены, мы получаем максимум и минимум, когда ( X , YX Y имеет обычное двумерное нормальное распределениегде Y записывается в виде линейной функции X . То есть мы получаем максимум для
Y = μ Y + σ Y X - μ X(X,Y) Y X
Здесь оценки являются (конечно)-1и1, независимотогокаких средств и дисперсийXиYимеют.
Когда и Y имеют логнормальные распределения, нижняя граница никогда не будет достигнута, поскольку это будет означать, что Y может быть записано Y = a - b X для некоторогоX Y Y Y=a−bX и положительного b , а Y никогда не может быть отрицательным. Существуют (немного некрасивые) формулы для точных границ, но позвольте мне привести специальный случай. Когда X и Y имеют стандартные логнормальные распределения (то есть, когда они возведены в степень, они стандартно нормальны), достижимый диапазон составляет [ - 1 / e , 1 ] ≈a b Y X Y . (В общем, верхняя граница также ограничена.)[−1/e,1]≈[−0.37,1]
Когда имеет стандартное нормальное распределение, а Y имеет стандартное логнормальное распределение, границы корреляции составляют ± 1X Y
Обратите внимание, что все оценки даны для корреляции населения . Корреляция выборки может легко выходить за границы, особенно для небольших выборок (быстрый пример: размер выборки 2).
Оценка корреляционных границ
На самом деле довольно легко оценить верхнюю и нижнюю границы корреляции, если вы можете моделировать из маргинальных распределений. Для последнего примера выше мы можем использовать этот код R:
Если у нас есть только фактические данные и мы не знаем предельных распределений, мы все равно можем использовать вышеуказанный метод. Это не проблема, что переменные являются зависимыми, пока пары наблюдений являются зависимыми. Но это помогает иметь много пар наблюдения.
Преобразование данных
То, что вы действительно делаете здесь, - это создание новой меры зависимости, которая не зависит от предельных распределений; то есть вы создаете меру зависимости на основе связки . Там уже существует несколько таких мер, Спирмена ρ и Кендалла τ причем наиболее хорошо известны. (Если вы действительно заинтересованы в понятиях зависимости, неплохо было бы заглянуть в связки.)
В заключение
Несколько заключительных мыслей и советов: один взгляд на корреляцию имеет одну большую проблему: он заставляет вас перестать думать. С другой стороны, если посмотреть на точечные диаграммы, вы часто начинаете думать. Поэтому мой главный совет - изучить графики рассеяния и попытаться смоделировать зависимость явно.
Тем не менее, если вам нужна простая корреляционная мера, я бы просто использовал ρ Спирмена (и соответствующий доверительный интервал и тесты). Его ассортимент не ограничен. Но следует помнить о немонотонной зависимости. В статье Википедии о корреляции есть несколько хороших графиков, иллюстрирующих потенциальные проблемы.
источник
Как выглядят распределения этих переменных (кроме перекосов)? Если единственной ненормальностью является асимметрия, то должна помочь какая-то трансформация. Но если эти переменные имеют много общего, то никакие преобразования не приведут их к нормальному состоянию. Если переменная не является непрерывной, то же самое верно.
Насколько надежна корреляция с нарушениями? Взгляните на квартет Анскомба. Это хорошо иллюстрирует несколько проблем.
Что касается других видов анализа, это зависит от анализа. Например, если перекошенные переменные являются независимыми переменными в регрессии, проблема может вообще не возникать - вам нужно посмотреть на остатки.
источник