В чем может быть причина использования преобразования квадратного корня в данных?

15

Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!

MarkDollar
источник
Я ответил на этот вопрос и на более общий вопрос здесь stats.stackexchange.com/questions/18844/…
IrishStat
3
Если зависимая переменная отличается, R-квадраты нельзя сравнивать.

Ответы:

13

В общем, параметрическая регрессия / GLM предполагают, что отношение между переменной и каждой переменной X является линейным, что остатки после подбора модели соответствуют нормальному распределению и что размер остатков остается примерно одинаковым на всем протяжении вдоль вашей подходящей линии (ей). Если ваши данные не соответствуют этим предположениям, преобразования могут помочь. YX

Должно быть интуитивно понятно, что если пропорционален X 2, то укоренение Y в квадрате линеаризует это соотношение, приводя к модели, которая лучше соответствует предположениям и объясняет большую дисперсию (имеет более высокий R 2 ). Квадратный корень Y также помогает, когда у вас есть проблема, что размер ваших остатков постепенно увеличивается по мере того, как ваши значения XYX2YR2YXувеличение (т. е. разброс точек данных вокруг подобранной линии становится более заметным при перемещении по ней). Подумайте о форме функции квадратного корня: сначала она резко возрастает, но затем насыщается. Таким образом, применение преобразования квадратного корня раздувает меньшие числа, но стабилизирует большие. Таким образом, вы можете думать об этом как о перемещении небольших остатков при низких значениях сторону от выровненной линии и прижимании больших остатков при высоких значениях X к линии. (Это умственное сокращение, а не правильная математика!)XX

Как говорят Дмитрий и Окрам, это лишь одна из возможных трансформаций, которая поможет в определенных обстоятельствах, и такие инструменты, как формула Бокса-Кокса, могут помочь вам выбрать наиболее полезную. Я бы посоветовал вам привыкнуть всегда смотреть графики остатков на соответствие значениям (а также график нормальной вероятности или гистограммы остатков), когда вы подходите к модели. Вы обнаружите, что часто сможете увидеть из этого, какой вид преобразования поможет.

Фрейя Харрисон
источник
Эй спасибо! Я знаю функцию boxcox, но мне было интересно, по каким практическим причинам имеет смысл преобразование sqrt! Спасибо!
MarkDollar
1
если дисперсия ошибок линейно связана с уровнем ряда, выполняется логарифмическое преобразование. Если стандартное отклонение линейно связано с уровнем ряда, выполняется преобразование квадратного корня. Выбор не имеет ничего общего с размером остатков, так как он связан с уровнем y и связан с соединением / разъединением первого и второго момента.
IrishStat
1
Фрейя, +1 для умственного сокращения >> правильная математика. Является ли эта интуиция и причиной использования L.5-метрики для кластеризации ?
Денис
Привет Денис, боюсь, я ничего не знаю о кластеризации.
Фрейя Харрисон
10

λ=0.5

yN(Xβ,σ2In)

Однако это априори фиксированное значение может быть (и, вероятно, является) не оптимальным. В R вы можете рассмотреть функцию из carбиблиотеки, powerTransformкоторая помогает оценить оптимальное значение для преобразований Бокса-Кокса для каждой из переменных, участвующих в линейной регрессии, или любых данных, с которыми вы работаете (подробности см. В разделе example(powerTransform)).

Дмитрий Челов
источник
5

Когда переменная следует распределению Пуассона, результаты преобразования квадратного корня будут намного ближе к гауссову.

Харви Мотульский
источник
Не могли бы вы привести некоторые аргументы для этого требования?
Utdiscant
Это не очень помогает для индивидуального распределения с конкретным значением параметра, но делает семейство распределения, полученное при изменении параметра, ближе к нормальному семейству с постоянной дисперсией
kjetil b halvorsen
3

Иногда рекомендуется использовать квадратный корень, чтобы ненормальная переменная выглядела как нормальная переменная в задачах регрессии. Логарифм является еще одним распространенным возможным преобразованием.

ocram
источник
0

Матрица расстояний, рассчитанная с помощью Брея-Кертиса, обычно не является метрической для некоторых данных, что приводит к отрицательным собственным значениям. Одним из решений этой проблемы является ее преобразование (логарифмическое, квадратное или двойное квадратное).

Ахмед Нур Осман
источник