Какова дисперсия взвешенной смеси двух гауссиан?

39

Скажем, у меня есть два нормальных распределения A и B со средствами и и и . Я хочу взять взвешенную смесь этих двух распределений, используя веса и где и . Я знаю, что среднее значение этой смеси будет .μ B σ A σ B p q 0 p 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )μAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Какой будет разница?


Конкретный пример был бы, если бы я знал параметры для распределения мужского и женского роста. Если бы в моей комнате было 60% мужчин, я мог бы рассчитать ожидаемый средний рост для всей комнаты, но как насчет дисперсии?

JoFrhwld
источник
В отношении терминологии: смесь просто имеет среднее значение и дисперсию; нет смысла квалифицировать их как «ожидаемые», если только вы не намекаете, что и следует считать случайными переменными. дpq
whuber
Я знаю, что смесь двух гауссовых распределений является идентифицируемой. Но если в двух дистрибутивах одинаковые эманы? То есть, можно ли идентифицировать смесь двух нормальных распределений с одинаковыми средними и разными стандартными отклонениями? Есть документы в этом контексте? Заранее спасибо
1
Здесь есть аналогичный вопрос с ответами (также касающийся КОВАРЯНС): math.stackexchange.com/q/195911/96547
hplieninger

Ответы:

63

Дисперсия - это второй момент минус квадрат первого момента, поэтому достаточно вычислить моменты смесей.

В общем случае, учитывая распределения с PDF-файлами и постоянными (неслучайными) весами , PDF-смесь представляет собойп яfipi

f(x)=ipifi(x),

из которого немедленно следует в любой момент чтоk

μ(k)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

Я написал для момента и для момента . k t h f μ ( k ) i k t h f iμ(k)kthfμi(k)kthfi

Используя эти формулы, дисперсию можно записать

Var(е)знак равноμ(2)-(μ(1))2знак равноΣяпяμя(2)-(Σяпяμя(1))2,

Эквивалентно, если дисперсии заданы как , то , позволяя записать дисперсию смеси в терминах дисперсий и средних значений ее компонентов какσ 2 i μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 fеяσя2μя(2)знак равноσя2+(μя(1))2е

Var(е)знак равноΣяпя(σя2+(μя(1))2)-(Σяпяμя(1))2знак равноΣяпяσя2+Σяпя(μя(1))2-(Σяпяμя(1))2,

На словах это (средневзвешенная) средняя дисперсия плюс среднее значение в квадрате минус квадрат среднего значения. Поскольку квадрат является выпуклой функцией, неравенство Дженсена утверждает, что среднее значение в квадрате может быть не меньше, чем квадрат среднего значения. Это позволяет нам понять формулу как утверждение, что дисперсия смеси представляет собой смесь дисперсий плюс неотрицательный термин, учитывающий (взвешенную) дисперсию средних.

В вашем случае дисперсия

пAσA2+пВσВ2+[пAμA2+пВμВ2-(пAμA+пВμВ)2],

Мы можем интерпретировать, что это взвешенная смесь двух дисперсий, , плюс (обязательно положительный) поправочный член, чтобы учесть сдвиги от индивидуальных средних относительно общего среднего значения смеси.пAσA2+пВσВ2

Полезность этой дисперсии для интерпретации данных, таких как приведенные в вопросе, сомнительна, потому что распределение смеси не будет нормальным (и может существенно отличаться от него в степени проявления бимодальности).

Whuber
источник
8
В частности, отметив, что , ваше последнее выражение упрощается до . σ 2 = μ ( 2 ) - μ 2 = p A σ 2 A + p B σ 2 B + p A p B ( μ A - μ B ) 2пA+пВзнак равно1σ2знак равноμ(2)-μ2знак равнопAσA2+пВσВ2+пAпВ(μA-μВ)2
Ильмари Каронен
2
Или, если мы навязываем вероятностное объяснение плотности смеси (есть событие вероятности и условная плотность заданная равна тогда как условная плотность заданная - ), тогда var - сумма среднего условной дисперсии плюс дисперсия условного среднего. Последний является дискретным RV со значениями с вероятностями иР Х N ( μ A , σ 2 ) Х с = B N ( μ B , σ 2 В ) ( Х ) Y М , μ Б р д Е [ Y 2 ] - ( Е [ Y ] ) 2AпAИксAN(μA,σA2)ИксAсзнак равноВN(μВ,σВ2)(Икс)YμA,μВпQи ваше выражение в квадратных скобках легко распознать как . E[Y2](E[Y])2
Дилип Сарватэ
1
@Neodyme По определению, дисперсия - это второй момент минус средний квадрат. Следовательно, второй момент - это дисперсия плюс среднее значение в квадрате.
whuber
1
@ Не надо использовать . E(X)=μ
whuber
1
@Kiran Хотя в некоторых случаях смесь может выглядеть нормально, это не так. Один из способов увидеть это - вычислить избыточный эксцесс, используя приведенные здесь формулы. Он будет отличен от нуля, если все стандартные отклонения не равны - в этом случае «смесь» на самом деле не является смесью.
whuber