Может ли кто-нибудь предложить пример унимодального распределения, у которого асимметрия равна нулю, но который не является симметричным?

31

В мае 2010 года пользователь из Википедии Mcorazao добавил в статью об асимметрии следующее предложение : «Нулевое значение указывает на то, что значения относительно равномерно распределены по обе стороны от среднего значения, обычно, но не обязательно, подразумевая симметричное распределение». Однако на вики-странице нет реальных примеров дистрибутивов, которые нарушают это правило. Поиск в Google «примерных асимметричных распределений с нулевой асимметрией» также не дает реальных примеров, по крайней мере, в первых 20 результатах.

Используя определение, что перекос вычисляется с помощью и R формулаЕ[(Икс-μσ)3]

sum((x-mean(x))^3)/(length(x) * sd(x)^3)

Я могу построить небольшое произвольное распределение, чтобы уменьшить асимметрию. Например, распределение

x = c(1, 3.122, 5, 4, 1.1) 

дает перекос . Но это небольшая выборка, причем отклонение от симметрии невелико. Итак, возможно ли построить большее распределение с одним пиком, который является сильно асимметричным, но при этом имеет асимметрию почти нулевую?-5,6494710-5

Энди МакКензи
источник
3
Вы хотите, чтобы дистрибутив был унимодальным или нет? Название говорит так, но текст едва упоминает этот момент.
Дилип Сарватэ
@Dilip Да, мне было бы интереснее, если бы дистрибутив был унимодальным, поскольку асимметрия, как центральный момент, в действительности не имеет смысла иначе.
Энди МакКензи,

Ответы:

28

Рассмотрим дискретные распределения. Тот, который поддерживается для значений , определяется неотрицательными вероятностями при условии, что (a) они суммируют с 1 и (b) коэффициент асимметрии равен 0 (что эквивалентно третьему центральному моменту, равному нулю). Это оставляет степени свободы (в смысле решения уравнений, а не в статистическом!). Мы можем надеяться найти решения, которые будут одномодальными.x 1 , x 2 , , x k p 1 , p 2 , , p k k - 2КИкс1,Икс2,...,ИксКп1,п2,...,пКК-2

Чтобы упростить поиск примеров, я искал решения, поддерживаемые на небольшом симметричном векторе с уникальным режимом , среднее значение 0 и нулевой асимметрии. Одним из таких решений является .0 ( p 1 , , p 7 ) = ( 1396 , 3286 , 9586 , 47386 , 8781 , 3930 , 1235 ) / 75600Иксзнак равно(-3,-2,-1,0,1,2,3)0(п1,...,п7)знак равно(1396,3286,9586,47386,8781,3930,1235)/75600

Функция вероятности

Вы можете видеть, что это асимметрично.

Вот более очевидно асимметричное решение с (которое асимметрично) и :p = ( 1 , 18 , 72 , 13 , 4 ) / 108Иксзнак равно(-3,-1,0,1,2)пзнак равно(1,18,72,13,4)/108

Функция вероятности 2

Теперь очевидно, что происходит: поскольку среднее значение равно , отрицательные значения вносят и в третий момент, в то время как положительные значения дают и , точно уравновешивая отрицательные вклады. Мы можем взять симметричное распределение около , такое как с , и немного сдвинуть массу с до , немного массы от до и небольшое количество массы до( - 3 ) 3 = - 27 18 × ( - 1 ) 3 = - 18 4 × 2 3 = 32 13 × 1 3 = 13 0 x = ( - 1 , 0 , 1 ) p = ( 1 , 4 , 1 ) / 6 + 1 + 2 + 1 - 10(-3)3знак равно-2718×(-1)3знак равно-184×23знак равно3213×13знак равно130Иксзнак равно(-1,0,1)p=(1,4,1)/6+1+2+110 03поддерживая среднее значение и асимметрию , создавая асимметрию. Тот же подход будет работать для поддержания нулевого среднего и нулевой асимметрии непрерывного распределения, делая его асимметричным; если мы не будем слишком агрессивны с массовым перемещением, оно останется унимодальным.00


Изменить: непрерывные распределения

Поскольку проблема продолжает возникать, давайте приведем явный пример с непрерывным распределением. У Питера Флома была хорошая идея: взглянуть на смеси нормалей. Смесь двух нормалей не подойдет: когда ее асимметрия исчезнет, ​​она будет симметричной. Следующий простейший случай - это смесь трех нормалей.

Смеси трех нормалей после соответствующего выбора местоположения и масштаба зависят от шести реальных параметров и, следовательно, должны обладать более чем достаточной гибкостью для получения асимметричного решения с нулевой асимметрией. Чтобы найти их, нам нужно знать, как вычислить асимметрии смесей нормалей. Среди них мы будем искать любые унимодальные (возможно, их нет).

Теперь, вообще говоря, (нецентральный) момент стандартного нормального распределения равен нулю, когда нечетно, и в противном случае равен . Когда мы изменяем масштаб этого стандартного нормального распределения на стандартное отклонение , момент умножается на . Когда мы сдвигаем любое распределение на , новый момент может быть выражен через моменты вплоть до включительно rrthr σrthσrμrthr2r/2Γ(1r2)/πσргоσрμргор, Момент смеси распределений (то есть их средневзвешенное значение) является таким же средневзвешенным значением отдельных моментов. Наконец, асимметрия равна нулю именно тогда, когда третий центральный момент равен нулю, и это легко вычисляется в терминах первых трех моментов.

Это дает нам алгебраическую атаку на проблему. Одно решение, которое я нашел, - это равная смесь трех нормалей с параметрами равными , и . Его среднее значение равно . Это изображение показывает pdf синим цветом, а pdf дистрибутива переворачивает его среднее значение красным цветом. То, что они отличаются, показывает, что они оба асимметричны. (Режим приблизительно , что не соответствует среднему значению .) Они оба имеют нулевую асимметрию по конструкции .( 0 , 1 ) ( 1 / 2 , 1 ) ( 0 , (μ,σ)(0,1)(1/2,1)(0+1/2+0)/3=1/60,05192161/6(0,127/18)(0,2,65623)(0+1/2+0)/3знак равно1/60.05192161/6

Непрерывные примеры

Графики показывают, что они унимодальны. (Вы можете проверить, используя исчисление, чтобы найти локальные максимумы.)

Whuber
источник
(+1) Очень приятный ответ. Будет ли это работать с непрерывным распределением, хотя? Разве сдвиг не может создать крошечные маленькие моды? Я не могу думать прямо ...
Макро
1
Вы хорошо думаете, Макро: мы все должны быть скептически настроены. Хитрость заключается в том, чтобы смещать крошечные количества, разбросанные по широким диапазонам Тест первой производной позволит вам проверить возможные режимы, а также послужит основой для доказательства того, что достаточно малые сдвиги этой формы не приведут к появлению новых режимов.
whuber
Спасибо за ответ! Это похоже на то, что я интуитивно думал, хотя я не мог выразить это словами - что вам нужно «сбалансировать» массу на каждой стороне распределения. Заставляет меня задуматься, существуют ли стереотипные способы, которыми можно выполнить этот баланс.
Энди МакКензи
Один из способов, Энди, - начать с дискретного решения, а затем свернуть его с нормальным распределением. В этом случае требование унимодальности заставит это нормальное распределение иметь большое стандартное отклонение. Тем не менее, если свертка существенно не меняет требуемые свойства (такие как нулевая асимметрия) или изменяет ее предсказуемым образом, у вас есть математический подход к проблеме. В некотором смысле мое недавнее редактирование можно рассматривать как такую ​​атаку, хотя это не является строго сверткой (потому что три нормали имеют разные стандартные отклонения).
whuber
2
Энди, я проверил: свертка дискретного решения с нормальным распределением не меняет асимметрию. Когда вы даете этому нормальному распределению стандартное отклонение около 0,57 или больше, результат будет унимодальным. Как и лежащее в основе дискретное распределение, оно продолжает иметь нулевое среднее значение, нулевую асимметрию и быть асимметричным. Смешивание этого со стандартным нормальным распределением равнозначно контролируемому перемещению массы между стандартным нормальным и дискретным распределением: это может удовлетворить ваш запрос о «стереотипном» методе.
whuber
23

Вот один, который я нашел на https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#, который я нахожу хорошим и воспроизведенный в R: обратный заусенец или распределение Дагума с параметрами формы и :с = 18,1484Кзнак равно0,0629сзнак равно18,1484

г(Икс)знак равносКИкс-(с+1)[1+Икс-с]-(К+1)

Он имеет среднее значение 0,5387, стандартное отклонение 0,2907, асимметрию 0,0000 и эксцесс 2,0000. Источник также называет это «распределением слонов»: введите описание изображения здесь

Моя репродукция в R была создана с

library(actuar)
library(knotR)

# a nonsymmetric distribution with zero skewness
# see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#

c <- 18.1484
k <- 0.0629

x <- seq(0,1.5,by=.0001)

elephant.density <- dinvburr(x, k, c)
plot(x,elephant.density, type="l")
polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey")
points(0.8,0.8, pch=19, cex=2)

# "ears" created via https://www.desmos.com/calculator/cahqdxeshd
ear.x <- c(0.686, 0.501, 0.42, 0.68)
ear.y <- c(0.698, 0.315, 1.095, 0.983)

myseg(bezier(cbind(ear.x, ear.y)), type="l")

EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf
EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k)
EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k)
(skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196

Как показывают эти выходные данные, для этих значений параметров асимметрия не совсем нулевая или четырехзначная. Вот небольшой оптимизатор для и :сКс

   # optimize skewness a bit further
    skewval <- 1

while (skewval > 10^(-10)){
  optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c)
  skewval <- optskew.k$f.root
  k <- optskew.k$root

  optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k)
  skewval <- optskew.c$f.root
  c <- optskew.c$root
}

получая

> print(c)
[1] 18.89306

> print(k)
[1] 0.05975542

> print(skewval)
[1] -1.131464e-15
Кристоф Ханк
источник
Спасибо за редактирование. Тем не менее, я не мог воспроизвести асимметрию от 0,0000 до четырех цифр, получая вместо этого 0,0001245138 (см. Следующее редактирование, в коде R).
Кристоф Ханк
Вероятно, можно запустить простой оптимизатор, чтобы найти значения и , чтобы асимметрия была как можно ближе к нулю. Это должна быть пара дополнительных строк или, возможно, даже одна. У вас уже есть функция потерь, аналитически вычисленная в вашей последней строке, есть ли подходящий универсальный оптимизатор в R? ксК
говорит амеба, восстанови Монику
На самом деле, 0,0003756196. 0.0001245138 уже после некоторой начальной оптимизации, приведенной здесь по ошибке. Я взгляну.
Кристоф Ханк,
@amoeba, я попытался немного оптимизировать, но я не утверждаю, что сделал это умным способом, у меня мало опыта в оптимизации.
Кристоф Ханк
2
На мой взгляд, было достаточно асимметрии от нуля до трех цифр (почти четыре); это не значит, что более точное значение будет выглядеть иначе. Если асимметрия будет пересекать ноль в этой окрестности, и будет ясно, в каких направлениях нужно подправить значения, если требуется большая точность, я считаю, что этого достаточно. Но слава за дополнительные усилия. (
Между прочим
9

Рассмотрим распределение в положительной половине реальной линии, которое линейно возрастает от 0 до моды, а затем экспоненциально справа от моды, но непрерывно в моде.

Это можно назвать треугольным экспоненциальным распределением (хотя оно часто выглядит как акулий плавник).

Пусть будет местоположением моды, а будет параметром скорости экспоненты.λθλ

По мере увеличения распределение становится все менее асимметричным. Когда увеличивается за третий момент переходит из положительного в отрицательный:λ θ 6,15λθλθ6,15

Треугольно-экспоненциальный с нулевой асимметрией

Brizzi (2006) называет это семейство распределений распределением «двух граней» и обсуждает эту точку пересечения, где асимметрия третьего момента равна нулю. фон Хиппель (2005) представляет пример, который почти в этой точке пересечения здесь[ 2 ][1][2]

Нить Нормальные распределения с нулевой асимметрией и нулевым избыточным эксцессом? имеет несколько асимметричных примеров, включая небольшой дискретный пример и другой непрерывный унимодальный:

Унимодальная гауссовская смесь с нулевой асимметрией

Дискретные унимодальные распределения - или, что то же самое, выборки - с нулевой асимметрией довольно легко построить, большого или малого размера.

Вот пример, который вы можете рассматривать как образец или (путем деления необработанных частот на 3000) как pmf (значения «x» - это значения, принятые, «n» - количество раз, когда это значение встречается в образце. ):

x:  -2   -1    0    1    2    3    4    5    6    7    8    9   10
n: 496  498  562 1434    2    1    1    1    1    1    1    1    1

График функции вероятности массы построен из вышеупомянутого

Этот пример построен из 3-точечных распределений:

x:          -2              1                  c
n:   c(c-1)(c+1)/6     c(c-1)(c+1)/3 - c       1

для различных значений между 3 и 10. Этот параметризованный (по ) 3-точечный «атом» имеет и , что, в свою очередь, означает, что смеси в различных вариантах имеют ноль перекос. (Вы не можете сделать что-то меньшее, чем распределение по трем точкам, которые имеют асимметрию и третий центральный момент ноль. Совокупность простых частей по нескольким точкам, например, они делают аккуратные строительные блоки, из которых могут быть сделаны большие структуры.)c i n i x i = 0 i n i x 3 i = 0 cссΣяNяИксязнак равно0ΣяNяИкся3знак равно0с

Есть множество других подобных «атомов», которые можно построить, но этот пример использует только этот один вид. К некоторой комбинации атомов, таких как эти, добавляется несколько симметрично расположенных значений, чтобы заполнить оставшиеся отверстия и гарантировать унимодальность, не разрушая структуру среднего и третьего момента.

[1] Бриззи, М. (2006),
«Перекошенная модель, сочетающая треугольные и экспоненциальные характеристики: двуликое распределение и его статистические свойства»
Австрийский журнал статистики , 35 : 4, с. 455–462
http: //www.stat .tugraz.at / AJS / ausg064 /

[2] фон Хиппель, PT (2005),
«Среднее значение, медиана и перекос: исправление правила учебника»,
журнал «Статистика», том 13, номер 2,
http://ww2.amstat.org/publications/jse/v13n2/ vonhippel.html

Glen_b - Восстановить Монику
источник
3
Может быть, это можно назвать «Акула-плавник»?
Glen_b
@Glen_b Это действительно Акула-плавник.
Алекос Пападопулос
2

Конечно. Попробуй это:

skew= function (x, na.rm = FALSE) 
 {
    if (na.rm)    x <- x[!is.na(x)]             #remove missing values
    sum((x - mean(x))^3)/(length(x) * sd(x)^3)  #calculate skew   
 }

set.seed(12929883) 
x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1))

 skew(x)
 plot(density(x))

(Вы уже сделали тяжелые вещи!)

Питер Флом - Восстановить Монику
источник
1
Прекрасно, мне это нравится. +1
gung - Восстановить Монику
4
Это не бимодальное ... это ужасно много -modal. Попробуйте построить плотность; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
Гость
1
Данные, сгенерированные таким образом, безусловно, не являются одномодальными. Все, что вам нужно сделать, чтобы увидеть, что это вырезать и вставить свой код, дословно. Действительно, смесь нормально распределенных переменных никогда не будет унимодальной (если, конечно, одна из пропорций смеси не равна 1).
Макро
8
@ Макро, это не правильно. См., Например, реферат Roeder 1994 (JASA) об известном результате, что «плотность двух смешанных нормалей не является бимодальной, если средние значения не разделены по крайней мере двумя стандартными отклонениями». Если они разделены меньшим чем это, смесь унимодальна.
Гость
1
Ты прав @guest. Я забыл об этой возможности, когда сделал свой пост
Macro
2

Е[(Икс-μσ)3]знак равно0
Е[(Икс-μσ)3|Иксμ]+Е[(Икс-μσ)3|Икс>μ]знак равно0.

YZμ

Е[(Y-μσ)3]знак равноЕ[(Z-μσ)3]
ИксYμ(μ-Z)

YZμμ

krlmlr
источник
1
Как вы гарантируете, что дистрибутив унимодален?
Дилип Сарватэ
YZμ
σYZ
@whuber: Черт. Я знал, что должна быть какая-то ловушка ... :-)
krlmlr
2

Следующее дискретное распределение является асимметричным и имеет нулевую асимметрию: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Я нашел это в статье Дорика и др., Qual Quant (2009) 43: 481-493; DOI 10.1007 / s11135-007-9128-9

Petitjean
источник
+1 Проверяется и унимодально. Это самый простой пример.
whuber