Взятие корреляции до или после лог-преобразования переменных

9

Существует ли общий принцип о том, следует ли вычислять корреляцию Пирсона для двух случайных величин X и Y перед выполнением их лог-преобразования или после? Есть ли процедура для проверки, которая более подходит? Они дают одинаковые, но разные значения, поскольку логарифмическое преобразование нелинейно. Зависит ли это от того, ближе ли X или Y к нормальности после лога? Если так, то почему это важно? Означает ли это, что нужно провести проверку нормальности X и Y в сравнении с log (X) и log (Y), и на основании этого решить, является ли Pearson (x, y) более подходящим, чем Pearson (log (x), log ( у))?

user9097
источник
У @vinux хороший ответ, и он предоставляет информативную ссылку для понимания роли нормальности в корреляции. Я просто хотел указать на этот вопрос: stats.stackexchange.com/questions/298, который очень хорош для понимания того, что журналы делают в регрессии.
gung - Восстановить Монику

Ответы:

5

Поскольку и являются монотонными преобразованиями данных и , вы также можете использовать корреляцию Спирмена ( ) и не беспокоиться о преобразовании ваших данных, как вы получитеlog ( Y ) X Y ρ S ρ S ( X , Y ) = ρ S ( log ( X ) , log ( Y ) )log(X)log(Y)XYρSρS(X,Y)=ρS(log(X),log(Y))

Kavka
источник
4

Корреляция (Pearson) измеряет линейную связь между двумя непрерывными переменными. Для (X, Y) или (log X, log Y) такого выбора не существует. Разброс графиков переменных может быть использован для понимания взаимосвязи.

Следующая ссылка может ответить относительно нормального вопроса. ссылка на сайт

vinux
источник
-3

Корреляция Пирсона предназначена для параметрического тестирования и является более мощной, чем непараметрический тест. Таким образом, мы предпочитаем использовать преобразование перед любыми непараметрическими процедурами. Преобразуйте свои данные и получите корреляцию Pearsons. Вот и все.

аби
источник
@ abi: В зависимости от объема выборки коэффициенты Спирмена и Кендалла относительно мощности и MSE относительно схожи с коэффициентами Пирсона с нормально распределенными данными и намного превосходят даже незначительное загрязнение данных.
Патрик