Скажем, у меня есть два нормальных распределения A и B со средствами и и и . Я хочу взять взвешенную смесь этих двух распределений, используя веса и где и . Я знаю, что среднее значение этой смеси будет .μ B σ A σ B p q 0 ≤ p ≤ 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )
Какой будет разница?
Конкретный пример был бы, если бы я знал параметры для распределения мужского и женского роста. Если бы в моей комнате было 60% мужчин, я мог бы рассчитать ожидаемый средний рост для всей комнаты, но как насчет дисперсии?
normal-distribution
mixture
JoFrhwld
источник
источник
Ответы:
Дисперсия - это второй момент минус квадрат первого момента, поэтому достаточно вычислить моменты смесей.
В общем случае, учитывая распределения с PDF-файлами и постоянными (неслучайными) весами , PDF-смесь представляет собойп яея пя
из которого немедленно следует в любой момент чтоК
Я написал для момента и для момента . k t h f μ ( k ) i k t h f iμ( к ) Кт ч е μ( к )я Кт ч ея
Используя эти формулы, дисперсию можно записать
Эквивалентно, если дисперсии заданы как , то , позволяя записать дисперсию смеси в терминах дисперсий и средних значений ее компонентов какσ 2 i μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 fея σ2я μ( 2 )я= σ2я+ ( μ( 1 )я)2 е
На словах это (средневзвешенная) средняя дисперсия плюс среднее значение в квадрате минус квадрат среднего значения. Поскольку квадрат является выпуклой функцией, неравенство Дженсена утверждает, что среднее значение в квадрате может быть не меньше, чем квадрат среднего значения. Это позволяет нам понять формулу как утверждение, что дисперсия смеси представляет собой смесь дисперсий плюс неотрицательный термин, учитывающий (взвешенную) дисперсию средних.
В вашем случае дисперсия
Мы можем интерпретировать, что это взвешенная смесь двух дисперсий, , плюс (обязательно положительный) поправочный член, чтобы учесть сдвиги от индивидуальных средних относительно общего среднего значения смеси.пAσ2A+ рВσ2В
Полезность этой дисперсии для интерпретации данных, таких как приведенные в вопросе, сомнительна, потому что распределение смеси не будет нормальным (и может существенно отличаться от него в степени проявления бимодальности).
источник