Преобразование данных пропорции: когда квадратного корня арксинуса недостаточно

20

Есть ли (более сильная?) Альтернатива квадратному корню арксин для преобразования процент / пропорция? В наборе данных, над которым я сейчас работаю, заметная гетероскедастичность сохраняется после того, как я применяю это преобразование, то есть график зависимости остатков от подгоночных значений все еще очень ромбовидный.

Отредактировано, чтобы отвечать на комментарии: данные представляют собой инвестиционные решения участников эксперимента, которые могут инвестировать 0-100% от фонда, кратного 10%. Я также посмотрел на эти данные, используя порядковую логистическую регрессию, но хотел бы увидеть, что произвел бы действительный glm. Кроме того, я мог бы увидеть, что ответ будет полезен для будущей работы, так как квадратный корень arcsin, кажется, используется в качестве единого решения для всех в моей области, и я не встречал никаких альтернативных вариантов применения.

Фрейя Харрисон
источник
2
Каковы соответствующие значения от? Какая у тебя модель? arcsin (приблизительно) стабилизирует дисперсию для биномиального, но у вас все еще будут эффекты "края", если пропорции близки к 0 или 1 - потому что нормальная часть эффективно усекается.
вероятностная
1
Позвольте мне вдвойне сказать, что сказал @probabilityislogic, а также узнать, откуда поступают данные. В проблеме может быть что-то, что предполагает другое преобразование или совсем другую модель, которая может быть более подходящей и / или интерпретируемой.
JMS
1
@prob @JMS Почему бы нам не позволить оператору, который, как мне кажется, хорошо разбирается в статистике, сначала попробовать маршрут трансформации? Затем, если это не сработает, было бы полезно начать новый поток, в котором проблема представлена ​​менее узко. Ваши комментарии будут уместны в этом контексте.
whuber
1
Существуют огромные проблемы с преобразованием квадратного корня арксинуса, прямо описанного в забавно озаглавленной статье .
Арксинус асинин
1
@mkt Спасибо за ссылку, это сразу перешло к лекции следующего семестра об обобщенных линейных моделях.
Фрейя Харрисон

Ответы:

28

Конечно. Джон Тьюки описывает семейство (растущих, однозначных) преобразований в EDA . Он основан на этих идеях:

  1. Уметь удлинять хвосты (в направлении 0 и 1) в соответствии с параметром.

  2. Тем не менее, чтобы соответствовать оригинальным (непреобразованным) значениям ближе к середине ( 1/2 ), что делает преобразование легче интерпретировать.

  3. Для того, чтобы повторно выражение симметричными относительно 1/2. То есть, если p является повторно выражена как f(p) , то 1p будет повторно выражена как f(p) .

Если вы начнете с любой возрастающей монотонной функции g:(0,1)R дифференцируется в1/2 вы можете настроить его для удовлетворения второго и третьего критерия: просто определить

f(p)=g(p)g(1p)2g(1/2).

Числитель явно симметричен (критерий (3) ), потому что замена p на 1p обращает обратное вычитание, тем самым отрицая его. Для того, чтобы видеть , что (2) выполнено, к сведению , что знаменатель именно фактор необходимо , чтобы сделать f(1/2)=1. Напомним , что производная аппроксимирует локальное поведение функции с линейной функцией; наклон 1=1:1 означает, что f(p)p(плюс константа 1/2 ) , когда p достаточно близко к 1/2. Именно в этом смысле , в котором исходные значения «соответствуют ближе к середине.»

Тьюки называет это «свернутой» версией g . Его семейство состоит из степенных и лог-преобразований g(p)=pλ где, когда λ=0 , мы рассматриваем g(p)=log(p) .

Давайте посмотрим на некоторые примеры. При λ=1/2 мы получаем сложенный корень, или «Фрут» f(p)=1/2(p1p). Когдаλ=0мы имеем сложенный логарифм, или «flog»,f(p)=(log(p)log(1p))/4. Очевидно, это всего лишь постоянное число, кратноелогит-преобразованию,log(p1p).

Графики для лямбда = 1, 1/2, 0 и arcsin

На этом графике синие линий соответствуют λ=1 , промежуточной красной линии λ=1/2 , и крайней зеленой линию λ=0 . Пунктирная золотая линия - арксинусное преобразование, arcsin(2p1)/2=arcsin(p)arcsin(1/2). «Соответствие» склонов (критерий(2)) вызывает все графики совпадают вблизиp=1/2.

Наиболее полезные значения параметра λ лежат между 1 и 0 . (Вы можете сделать хвосты еще тяжелее с отрицательными значениями λ , но это использование редко.) λ=1 ничего вообще не делать , кроме центрирования значений ( f(p)=p1/2 ). По мере того как λ сжимается к нулю, хвосты тянутся дальше к ± . Это удовлетворяет критерию № 1. Таким образом, выбирая подходящее значение λ , вы можете контролировать «силу» этого повторного выражения в хвостах.

Whuber
источник
что, знаете о любой функции R, которая выполняет эту функцию автоматически?
Джон
1
@ Джон Нет, не знаю, но это достаточно просто реализовать.
uber
2
Я не видел в этом ничего сложного, но было бы неплохо, если бы было что-то вроде преобразований boxcox, которые автоматически отображали лучший выбор для лямбды. Да, не страшно реализовать ...
Джон
2
Спасибо, это именно то, что я искал, и график действительно полезен. Определенно согласен с Джоном, что что-то вроде boxcox будет полезно, но это кажется достаточно простым для проработки.
Фрейя Харрисон
7

Одним из способов включения является включение индексированного преобразования. Один общий способ заключается в использовании любой симметричной (обратной) кумулятивной функции распределения, так что и F ( x ) = 1 - F ( - x ) . Одним из примеров является стандартное распределение Стьюдента с ν степенями свободы. Параметр v контролирует, насколько быстро преобразованная переменная уходит в бесконечность. Если вы установите v = 1, то у вас есть преобразование арктана:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Это намного более экстремально, чем arcsine, и более экстремально, чем logit-преобразование. Обратите внимание, что логит-преобразование можно приблизительно аппроксимировать, используя t-распределение с . Так или иначе, это обеспечивает приблизительную связь между логитом и пробитом ( ν =ν8преобразованиями ) и распространяет их на более экстремальные преобразования.ν=

Проблема с этими преобразованиями состоит в том, что они дают когда наблюдаемая пропорция равна 1 или 0 . Таким образом , вы должны как - то сжать их каким - то образом - самый простой способ в том , чтобы добавить + 1 «успехи» и + 1 «провалы».±10+1+1

probabilityislogic
источник
2
По разным причинам Тьюки рекомендует добавлять +1/6 к счетам. Обратите внимание, что этот ответ является частным случаем подхода свертывания Тьюки, который я описал: любой CDF с положительным PDF является монотонным; сворачивание симметричного CDF оставляет его без изменений.
whuber
2
Мне было интересно, откуда приходит ваше грубое приближение. Как вы пришли к ? Я не могу воспроизвести это. Я принимаю , что приближение должно сломаться в крайнем р вблизи 0 или 1 , но я считаю , что ν = 5 является гораздо лучше подходит для логита для р около 1 / 2 . Возможно, вы оптимизируете некоторую меру средней разницы между CDF t ν и logit ? ν8p01ν=5p1/2tνlogit
whuber
2
@whuber - ты слишком мне доверяешь. Мое предложение было основано на просмотре графика pdf из , графика логистики pdf f ( x ) = e - x ( 1 + e - x ) - 2 и графика стандартного нормального pdf. 5 степеней свободы соответствуют избыточному эксцессу, и вполне могут быть лучше. t8f(x)=ex(1+ex)25
вероятностная
5
@whuber Одной из причин добавления 1/6 к счетам является то, что результирующий «начальный» счет аппроксимирует медиану апостериорного, предполагая биномиальное распределение с ранее Джеффрисом (я немного напишу об этом здесь: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Однако я не знаю, было ли это причиной Тьюки для добавления 1/6. Вы знаете, в чем его причина?
Расмус Батх
4
@Rasmuth In EDA , p. 496. Тьюки пишет: «[Использование], которое мы здесь рекомендуем, имеет оправдание, но поскольку это оправдание (i) является косвенным и (ii) связано с более сложными соображениями, мы не будем больше говорить об этом. Мы рекомендуем добавить 1 / 6 ко всем разделенным подсчетам, таким образом, «запуская» их ». («Счетчик разделения» любого значения - это число x i < x плюс половина числа x i = x в пакете данных ( x i ) .) Я не помню, чтобы сталкивался с этими «сложными соображениями» в других газетах или книгах Тьюки, которые я читал, но всегда предполагал, что они могут быть связаны с точками построения вероятности.xxi<xxi=x(xi)
whuber