В чем может быть причина использования преобразования квадратного корня в данных?

15

Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!

regression data-transformation variance-stabilizing MarkDollar
источник

Я ответил на этот вопрос и на более общий вопрос здесь stats.stackexchange.com/questions/18844/…

IrishStat

3

Если зависимая переменная отличается, R-квадраты нельзя сравнивать.

13

В общем, параметрическая регрессия / GLM предполагают, что отношение между переменной и каждой переменной является линейным, что остатки после подбора модели соответствуют нормальному распределению и что размер остатков остается примерно одинаковым на всем протяжении вдоль вашей подходящей линии (ей). Если ваши данные не соответствуют этим предположениям, преобразования могут помочь. $Y$ $X$

Должно быть интуитивно понятно, что если пропорционален то укоренение квадрате линеаризует это соотношение, приводя к модели, которая лучше соответствует предположениям и объясняет большую дисперсию (имеет более высокий ). Квадратный корень также помогает, когда у вас есть проблема, что размер ваших остатков постепенно увеличивается по мере того, как ваши значения $Y$ $X^2$ $Y$ $R^2$ $Y$ $X$ увеличение (т. е. разброс точек данных вокруг подобранной линии становится более заметным при перемещении по ней). Подумайте о форме функции квадратного корня: сначала она резко возрастает, но затем насыщается. Таким образом, применение преобразования квадратного корня раздувает меньшие числа, но стабилизирует большие. Таким образом, вы можете думать об этом как о перемещении небольших остатков при низких значениях сторону от выровненной линии и прижимании больших остатков при высоких значениях к линии. (Это умственное сокращение, а не правильная математика!) $X$ $X$

Как говорят Дмитрий и Окрам, это лишь одна из возможных трансформаций, которая поможет в определенных обстоятельствах, и такие инструменты, как формула Бокса-Кокса, могут помочь вам выбрать наиболее полезную. Я бы посоветовал вам привыкнуть всегда смотреть графики остатков на соответствие значениям (а также график нормальной вероятности или гистограммы остатков), когда вы подходите к модели. Вы обнаружите, что часто сможете увидеть из этого, какой вид преобразования поможет.

Фрейя Харрисон
источник

Эй спасибо! Я знаю функцию boxcox, но мне было интересно, по каким практическим причинам имеет смысл преобразование sqrt! Спасибо!

MarkDollar

1

если дисперсия ошибок линейно связана с уровнем ряда, выполняется логарифмическое преобразование. Если стандартное отклонение линейно связано с уровнем ряда, выполняется преобразование квадратного корня. Выбор не имеет ничего общего с размером остатков, так как он связан с уровнем y и связан с соединением / разъединением первого и второго момента.

IrishStat

1

Фрейя, +1 для умственного сокращения >> правильная математика. Является ли эта интуиция и причиной использования L.5-метрики для кластеризации ?

Денис

Привет Денис, боюсь, я ничего не знаю о кластеризации.

Фрейя Харрисон

10

$\lambda = 0.5$

$y\sim N(X\beta, \sigma^2 I_n)$

Однако это априори фиксированное значение может быть (и, вероятно, является) не оптимальным. В R вы можете рассмотреть функцию из carбиблиотеки, powerTransformкоторая помогает оценить оптимальное значение для преобразований Бокса-Кокса для каждой из переменных, участвующих в линейной регрессии, или любых данных, с которыми вы работаете (подробности см. В разделе example(powerTransform)).

Дмитрий Челов
источник

5

Когда переменная следует распределению Пуассона, результаты преобразования квадратного корня будут намного ближе к гауссову.

Харви Мотульский
источник

Не могли бы вы привести некоторые аргументы для этого требования?

Utdiscant

Это не очень помогает для индивидуального распределения с конкретным значением параметра, но делает семейство распределения, полученное при изменении параметра, ближе к нормальному семейству с постоянной дисперсией

kjetil b halvorsen

См en.wikipedia.org/wiki/Anscombe_transform

Том Wenseleers

3

Иногда рекомендуется использовать квадратный корень, чтобы ненормальная переменная выглядела как нормальная переменная в задачах регрессии. Логарифм является еще одним распространенным возможным преобразованием.

ocram
источник

0

Матрица расстояний, рассчитанная с помощью Брея-Кертиса, обычно не является метрической для некоторых данных, что приводит к отрицательным собственным значениям. Одним из решений этой проблемы является ее преобразование (логарифмическое, квадратное или двойное квадратное).

Ахмед Нур Осман
источник

В чем может быть причина использования преобразования квадратного корня в данных?

Ответы: