Мне любопытно, есть ли преобразование, которое изменяет перекос случайной величины, не влияя на эксцесс. Это было бы аналогично тому, как аффинное преобразование RV влияет на среднее значение и дисперсию, но не на перекос и эксцесс (отчасти потому, что перекос и эксцесс определяется как инвариантный к изменениям масштаба). Это известная проблема?
data-transformation
random-variable
moments
shabbychef
источник
источник
Ответы:
Мой ответ - начало полного взлома, но я не знаю ни одного устоявшегося способа сделать то, что вы просите.
Моим первым шагом было бы упорядочить ваш набор данных по рангу, вы можете найти пропорциональное положение в вашем наборе данных и затем преобразовать его в нормальное распределение, этот метод был использован в Reynolds & Hewitt, 1996. Смотрите пример кода R ниже в PROCMiracle.
Как только распределение нормальное, проблема перевернулась с ног на голову - вопрос корректировки эксцесса, но не перекоса. Поиск в Google показал, что можно выполнить процедуры John & Draper, 1980, чтобы скорректировать эксцесс, но не перекос, но я не мог воспроизвести этот результат.
Мои попытки разработать грубую функцию расширения / сужения, которая принимает входное (нормализованное) значение и добавляет или вычитает из него значение, пропорциональное положению переменной на нормальной шкале, приводит к монотонной корректировке, но на практике имеет тенденцию создавать бимодальное распределение, хотя и имеющее желаемые значения асимметрии и эксцесса.
Я понимаю, что это не полный ответ, но я подумал, что это может стать шагом в правильном направлении.
источник
Еще одна возможная интересная техника пришла на ум, хотя это не вполне отвечает на вопрос, заключается в том, чтобы преобразовать выборку, чтобы иметь фиксированную L-асимметрию выборки и L-эксцесс выборки (а также фиксированное среднее значение и L-шкалу). Эти четыре ограничения являются линейными в статистике заказа. Чтобы сохранить монотонность преобразования на выборке из наблюдений, потребуется другое уравнение. Это можно было бы представить как квадратичную задачу оптимизации: минимизироватьn - 1 ℓ 2n n−1 ℓ2 норма между статистикой порядка выборки и преобразованной версией с учетом данных ограничений. Хотя это своего рода дурацкий подход. В первоначальном вопросе я искал что-то более простое и фундаментальное. Я также неявно искал метод, который можно было бы применить к отдельным наблюдениям, независимо от наличия целой когорты выборок.
источник
Я бы предпочел смоделировать этот набор данных, используя лептокуротическое распределение вместо использования преобразований данных. Мне нравится распределение sinh-arcsinh от Jones and Pewsey (2009), Biometrika.
источник