Укрощение перекоса ... Почему так много перекосов?

9

Я надеюсь получить более полное представление о четырех типах перекоса этого сообщества.

Типы, на которые я ссылаюсь, упоминаются на странице помощи http://www.inside-r.org/packages/cran/e1071/docs/skewness .

Старый метод не был упомянут на странице справки, но я все же включаю его.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Вот статья, на которую ссылается автор e1071: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes and CA Gill (1998), Сравнение показателей асимметрии образцов и эксцессов.

Из моего прочтения этой статьи они предполагают, что тип 3 имеет наименьшую ошибку.

Вот примеры асимметрии из приведенного выше кода:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Я также заметил, что автор e1071 написал функцию перекоса, отличную от заметок на странице справки. Обратите внимание на площадь:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Любые идеи, почему sqrt (n) находится в первом уравнении? Какое уравнение лучше справляется с переполнением? Любые другие идеи, почему они разные (но дают одинаковые результаты)?

Крис
источник
3
Ваш вопрос упоминает «четыре типа перекоса» ... но затем дает ссылку и запускает в кучу кода (язык, который вы даже не упоминаете). Таким образом, людям не нужно читать ссылку, чтобы узнать, о чем вы спрашиваете, и в интересах людей, которые не читают R, и тех, кто считает чтение кода бесполезным для передачи понимания, это поможет определить, какие четыре меры асимметрии, которые вы имеете в виду перед (или предпочтительно вместо) полосой кода. [Когда вы говорите «четыре», а не «эти четыре», почему вы думаете, что существует ровно четыре, а не пять или семь или какое-то другое число?]
Glen_b
1
Я пытался дать какую-то форму ответа на конкретные вопросы, которые я мог найти в вашем посте, и рассмотрел ряд вопросов на этом пути, но за пределами этого «надеяться на большее понимание» слишком расплывчато, чтобы отвечать на него. Можете ли вы более четко определить, о чем вы хотите узнать? На нашем сайте много вопросов, касающихся асимметрии.
Glen_b
Спасибо, Глен, за твои посты. Я включил R в иллюстративных целях и чтобы показать формулы. Также я не знаю латекса. :(
Крис

Ответы:

10

Давайте начнем с того, который вы описываете как «старый метод»; это вторая асимметрия Пирсона или срединная асимметрия ; на самом деле асимметрия момента и это в целом одного и того же урожая (средняя асимметрия на самом деле немного моложе, так как перекос момента предшествует усилиям Пирсона).

Небольшое обсуждение истории можно найти здесь ; этот пост также может пролить немного света на пару других ваших вопросов.

Если вы будете искать на нашем сайте, используя вторую перекос Пирсона, вы попадете на несколько постов, в которых будет рассмотрено поведение этой меры.

Это на самом деле не более странно, чем моментная асимметрия в моем разуме; они оба иногда делают странные вещи, которые не соответствуют ожиданиям людей относительно меры асимметрии.


б1

sNsN-1г1

г1

б1N2(N-1)(N-2)N,(N-1)(N-2)

Все три из них - просто немного отличающиеся вариации асимметрии третьего момента. В очень больших выборках нет никакой разницы, которую вы используете. В небольших выборках все они имеют слегка отличающиеся отклонения и дисперсию.


Обсуждаемые здесь формы не исчерпывают определения асимметрии (я думаю, что я видел около десятка - в статье в Википедии перечислено немало, но даже это не охватывает гамму), и даже определения, относящиеся к третьей Моментная асимметрия, из которых я видел больше, чем три, которые вы подняли здесь.

Почему существует много мер асимметрии?

Итак (рассматривая все эти асимметрии третьего момента как одно на мгновение), почему так много разных асимметрий? Отчасти это потому, что асимметрия как понятие на самом деле довольно сложно определить. Это скользкая вещь, которую вы не можете точно определить одним номером. В результате все определения в некотором роде являются неадекватными, но, тем не менее, обычно соответствуют нашему широкому пониманию того, что, по нашему мнению, должна делать мера асимметрии. Люди продолжают пытаться придумать лучшие определения, но старые меры, такие как клавиатуры QWERTY, никуда не денутся.

Почему существует несколько показателей асимметрии, основанных на 3-м моменте?

Что касается того, почему так много асимметрии третьего момента, это просто потому, что есть более чем один способ превратить популяционную меру в выборочную меру. Мы видели два маршрута на основе моментов и один на основе кумулянтов. Мы могли бы построить еще больше; мы могли бы, например, попытаться получить (малую выборку) несмещенную меру при некотором распределительном допущении или меру минимальной среднеквадратичной ошибки или некоторую другую такую ​​величину.

Вы можете найти некоторые посты на сайте, касающиеся просвещения по асимметрии; есть примеры, которые показывают примеры распределений, которые не являются симметричными, но имеют нулевую асимметрию третьего момента. Есть некоторые, которые показывают медианную асимметрию Пирсона, и асимметрия третьего момента может иметь противоположные признаки.

Вот ссылки на несколько постов, касающихся асимметрии:

Означает ли = медиана, что унимодальное распределение симметрично?

Как показывают связь между средним значением и медианой в левом перекосе данных?

как определить асимметрию по гистограмме с выбросами?


б1

NΣ(Икс-Икс¯)3(Σ(Икс-Икс¯)2)3/2 # от e1071 :: источник асимметрии

Σ(Икс-Икс¯)3/N(Σ(Икс-Икс¯)2/N)3/2 # из моментов и справочной страницы e1071

32N

Glen_b - Восстановить Монику
источник