Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!
15
Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!
Ответы:
В общем, параметрическая регрессия / GLM предполагают, что отношение между переменной и каждой переменной X является линейным, что остатки после подбора модели соответствуют нормальному распределению и что размер остатков остается примерно одинаковым на всем протяжении вдоль вашей подходящей линии (ей). Если ваши данные не соответствуют этим предположениям, преобразования могут помочь.Y X
Должно быть интуитивно понятно, что если пропорционален X 2, то укоренение Y в квадрате линеаризует это соотношение, приводя к модели, которая лучше соответствует предположениям и объясняет большую дисперсию (имеет более высокий R 2 ). Квадратный корень Y также помогает, когда у вас есть проблема, что размер ваших остатков постепенно увеличивается по мере того, как ваши значения XY X2 Y R2 Y X увеличение (т. е. разброс точек данных вокруг подобранной линии становится более заметным при перемещении по ней). Подумайте о форме функции квадратного корня: сначала она резко возрастает, но затем насыщается. Таким образом, применение преобразования квадратного корня раздувает меньшие числа, но стабилизирует большие. Таким образом, вы можете думать об этом как о перемещении небольших остатков при низких значениях сторону от выровненной линии и прижимании больших остатков при высоких значениях X к линии. (Это умственное сокращение, а не правильная математика!)X X
Как говорят Дмитрий и Окрам, это лишь одна из возможных трансформаций, которая поможет в определенных обстоятельствах, и такие инструменты, как формула Бокса-Кокса, могут помочь вам выбрать наиболее полезную. Я бы посоветовал вам привыкнуть всегда смотреть графики остатков на соответствие значениям (а также график нормальной вероятности или гистограммы остатков), когда вы подходите к модели. Вы обнаружите, что часто сможете увидеть из этого, какой вид преобразования поможет.
источник
Однако это априори фиксированное значение может быть (и, вероятно, является) не оптимальным. В R вы можете рассмотреть функцию из
car
библиотеки,powerTransform
которая помогает оценить оптимальное значение для преобразований Бокса-Кокса для каждой из переменных, участвующих в линейной регрессии, или любых данных, с которыми вы работаете (подробности см. В разделеexample(powerTransform)
).источник
Когда переменная следует распределению Пуассона, результаты преобразования квадратного корня будут намного ближе к гауссову.
источник
Иногда рекомендуется использовать квадратный корень, чтобы ненормальная переменная выглядела как нормальная переменная в задачах регрессии. Логарифм является еще одним распространенным возможным преобразованием.
источник
Матрица расстояний, рассчитанная с помощью Брея-Кертиса, обычно не является метрической для некоторых данных, что приводит к отрицательным собственным значениям. Одним из решений этой проблемы является ее преобразование (логарифмическое, квадратное или двойное квадратное).
источник