Есть ли (более сильная?) Альтернатива квадратному корню арксин для преобразования процент / пропорция? В наборе данных, над которым я сейчас работаю, заметная гетероскедастичность сохраняется после того, как я применяю это преобразование, то есть график зависимости остатков от подгоночных значений все еще очень ромбовидный.
Отредактировано, чтобы отвечать на комментарии: данные представляют собой инвестиционные решения участников эксперимента, которые могут инвестировать 0-100% от фонда, кратного 10%. Я также посмотрел на эти данные, используя порядковую логистическую регрессию, но хотел бы увидеть, что произвел бы действительный glm. Кроме того, я мог бы увидеть, что ответ будет полезен для будущей работы, так как квадратный корень arcsin, кажется, используется в качестве единого решения для всех в моей области, и я не встречал никаких альтернативных вариантов применения.
источник
Ответы:
Конечно. Джон Тьюки описывает семейство (растущих, однозначных) преобразований в EDA . Он основан на этих идеях:
Уметь удлинять хвосты (в направлении 0 и 1) в соответствии с параметром.
Тем не менее, чтобы соответствовать оригинальным (непреобразованным) значениям ближе к середине (1/2 ), что делает преобразование легче интерпретировать.
Для того, чтобы повторно выражение симметричными относительно1/2. То есть, если p является повторно выражена как f(p) , то 1−p будет повторно выражена как −f(p) .
Если вы начнете с любой возрастающей монотонной функцииg:(0,1)→R дифференцируется в1/2 вы можете настроить его для удовлетворения второго и третьего критерия: просто определить
Числитель явно симметричен (критерий(3) ), потому что замена p на 1−p обращает обратное вычитание, тем самым отрицая его. Для того, чтобы видеть , что (2) выполнено, к сведению , что знаменатель именно фактор необходимо , чтобы сделать f′(1/2)=1. Напомним , что производная аппроксимирует локальное поведение функции с линейной функцией; наклон 1=1:1 означает, что f(p)≈p (плюс константа −1/2 ) , когда p достаточно близко к 1/2. Именно в этом смысле , в котором исходные значения «соответствуют ближе к середине.»
Тьюки называет это «свернутой» версиейg . Его семейство состоит из степенных и лог-преобразований g(p)=pλ где, когда λ=0 , мы рассматриваем g(p)=log(p) .
Давайте посмотрим на некоторые примеры. Приλ=1/2 мы получаем сложенный корень, или «Фрут» f(p)=1/2−−−√(p–√−1−p−−−−√) . Когдаλ=0 мы имеем сложенный логарифм, или «flog»,f(p)=(log(p)−log(1−p))/4. Очевидно, это всего лишь постоянное число, кратноелогит-преобразованию,log(p1−p) .
На этом графике синие линий соответствуютλ=1 , промежуточной красной линии λ=1/2 , и крайней зеленой линию λ=0 . Пунктирная золотая линия - арксинусное преобразование, arcsin(2p−1)/2=arcsin(p–√)−arcsin(1/2−−−√) . «Соответствие» склонов (критерий(2) ) вызывает все графики совпадают вблизиp=1/2.
Наиболее полезные значения параметраλ лежат между 1 и 0 . (Вы можете сделать хвосты еще тяжелее с отрицательными значениями λ , но это использование редко.) λ=1 ничего вообще не делать , кроме центрирования значений ( f(p)=p−1/2 ). По мере того как λ сжимается к нулю, хвосты тянутся дальше к ±∞ . Это удовлетворяет критерию № 1. Таким образом, выбирая подходящее значение λ , вы можете контролировать «силу» этого повторного выражения в хвостах.
источник
Одним из способов включения является включение индексированного преобразования. Один общий способ заключается в использовании любой симметричной (обратной) кумулятивной функции распределения, так что и F ( x ) = 1 - F ( - x ) . Одним из примеров является стандартное распределение Стьюдента с ν степенями свободы. Параметр v контролирует, насколько быстро преобразованная переменная уходит в бесконечность. Если вы установите v = 1, то у вас есть преобразование арктана:F(0)=0.5 F(x)=1−F(−x) ν v v=1
Это намного более экстремально, чем arcsine, и более экстремально, чем logit-преобразование. Обратите внимание, что логит-преобразование можно приблизительно аппроксимировать, используя t-распределение с . Так или иначе, это обеспечивает приблизительную связь между логитом и пробитом ( ν =ν≈8 преобразованиями ∞ ) и распространяет их на более экстремальные преобразования.ν=∞
Проблема с этими преобразованиями состоит в том, что они дают когда наблюдаемая пропорция равна 1 или 0 . Таким образом , вы должны как - то сжать их каким - то образом - самый простой способ в том , чтобы добавить + 1 «успехи» и + 1 «провалы».±∞ 1 0 +1 +1
источник