Предположим, у меня есть лептокуртическая переменная, которую я хотел бы преобразовать в нормальное состояние. Какие преобразования могут выполнить эту задачу? Мне хорошо известно, что преобразование данных может быть не всегда желательным, но в качестве академической цели, предположим, что я хочу «вбить» данные в нормальное русло. Кроме того, как видно из сюжета, все значения строго положительные.
Я пробовал различные преобразования (почти все, что я видел раньше, в том числе и т. Д.), Но ни один из них не работает особенно хорошо. Существуют ли общеизвестные преобразования, делающие лептокуротические распределения более нормальными?
Смотрите пример нормального графика QQ ниже:
Ответы:
Я использую распределения Ламберта W x F с тяжелым хвостом, чтобы описать и преобразовать лептокуртические данные. Смотрите (мои) следующие посты для более подробной информации и ссылок:
Вот воспроизводимый пример с использованием пакета LambertW R.
yy
Теперь вернемся к вашему вопросу: как снова сделать эти лептокуротические данные нормальными? Ну, мы можем оценить параметры распределения, используя MLE (или для методов использования моментов
IGMM()
),W_delta()
Вуаля!
источник
Хотя преобразование корня куба не сработало хорошо, оказалось, что квадратный корень и более неясный корень с тремя четвертями работают хорошо.
Вот исходный график плотности ядра, соответствующий графику QQ лептокуртической переменной в исходном вопросе:
После применения преобразования квадратного корня к отклонениям график QQ выглядит следующим образом:
Лучше, но это может быть ближе.
Удар еще немного, применение преобразования корня три четверти к отклонениям дает:
И конечная плотность ядра этой преобразованной переменной выглядит следующим образом:
Выглядит близко ко мне.
источник
Во многих случаях просто не может быть монотонного преобразования простой формы, которое даст результат, близкий к нормальному.
Например, представьте, что у нас есть распределение, представляющее собой конечную смесь логнормальных распределений различных параметров. Лог-преобразование преобразует любой из компонентов смеси в нормальность, но смесь нормалей в преобразованных данных оставляет вас с чем-то, что не является нормальным.
Или же это может быть относительно приятное преобразование, но не одной из форм, которые вы могли бы попробовать - если вы не знаете распределение данных, вы можете не найти его. Например, если данные были распределены по гамме, вы даже не найдете точное преобразование в нормальное состояние (которое, безусловно, существует), если я не скажу вам точно, что такое распределение (хотя вы можете наткнуться на преобразование кубического корня, которое в этом case делает его довольно близким к нормальному, пока параметр формы не слишком мал).
Есть множество способов, которыми данные могут выглядеть достаточно поддающимися преобразованию, но которые не выглядят великолепно ни в одном из списка очевидных преобразований.
Если вы можете предоставить нам доступ к данным, вполне возможно, что мы либо обнаружим преобразование, которое подходит, или что мы можем показать вам, почему вы его не найдете.
Просто из-за визуального впечатления это выглядит скорее как смесь двух нормалей с разными шкалами. Есть только небольшой намек на асимметрию, который вы легко можете наблюдать случайно. Вот пример выборки из смеси двух нормалей с общим средним значением - как вы видите, она очень похожа на ваш график (но другие выборки могут выглядеть более тяжелыми или более легкими с хвостами) - при этом размере выборки существует много изменений в порядке статистика за 1 сд по обе стороны от среднего значения).
На самом деле вот ваши и мои накладываются:
источник