Почему смесь двух нормально распределенных переменных является только бимодальной, если их средние значения отличаются как минимум в два раза от стандартного стандартного отклонения?

28

Под смесь двух нормальных распределений:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

«Смесь из двух нормальных распределений имеет пять параметров для оценки: два средних, две дисперсии и параметр смешивания. Смесь из двух нормальных распределений с равными стандартными отклонениями является бимодальной, только если их средние значения отличаются, по меньшей мере, в два раза от общего стандартного отклонения «.

Я ищу вывод или интуитивное объяснение того, почему это правда. Я полагаю, что это может быть объяснено в форме t-теста из двух примеров:

μ1μ2σp

где - стандартное отклонение в пуле.σp

М Ваз
источник
1
Интуиция заключается в том, что если средства слишком близки, то масса двух плотностей будет слишком сильно перекрываться, поэтому разница в средстве не будет видна, потому что разница будет просто увязана с массой двух. плотности. Если два средних значения достаточно различны, то массы двух плотностей не будут сильно перекрывать друг друга, и разница в средних значениях будет заметна. Но я хотел бы увидеть математическое доказательство этого. Это интересное заявление. Я никогда не видел это раньше.
mlofton
2
Более формально для смеси 50:50 двух нормальных распределений с одним и тем же SD если вы напишите плотность f ( x ) = 0.5 g 1 ( x ) + 0.5 g 2 ( x ) в полной форме, показывающую параметры, вы будет видетьчто ее вторая производная меняет знак в средней точке между двумя средствамикогда расстояние между средствами возрастают от ниже 2 сга выше. σ,f(x)=0.5g1(x)+0.5g2(x)2σ
БрюсЭТ
1
См. «Критерий Рэлея» en.wikipedia.org/wiki/Angular_resolution#Explanation
Карл Виттофт

Ответы:

53

Этот рисунок из статьи, ссылки на которую есть в этой вики-статье, представляет собой хорошую иллюстрацию введите описание изображения здесь

Доказательство, которое они предоставляют, основано на том факте, что нормальные распределения являются вогнутыми в пределах одного SD их среднего значения (SD является точкой перегиба нормального pdf, где оно переходит от вогнутого к выпуклому). Таким образом, если вы добавляете два нормальных PDF-файла вместе (в равных пропорциях), то, пока их средние значения отличаются менее чем на два SD, сумма-PDF (то есть смесь) будет вогнутой в области между этими двумя средними, и, следовательно, глобальный максимум должен находиться точно в точке между двумя средними.

Ссылка: Schilling, MF, Уоткинс, AE & Уоткинс, W. (2002). Является ли рост человека бимодальным? Американский статистик, 56 (3), 223–229. DOI: 10,1198 / 00031300265

Рубен ван Берген
источник
11
+1 Это хороший, запоминающийся аргумент.
whuber
2
Подпись к рисунку также дает хорошую иллюстрацию того, что лигатура 'fl' была неправильно введена в 'перегиб' :-P
nekomatic
2
@Axeman: Спасибо за добавление этой ссылки - так как она немного взорвалась, я планировал добавить ее сам, так как я на самом деле просто повторяю их аргумент, и я не хочу брать за это слишком много.
Рубен ван Берген
14

Это тот случай, когда изображения могут быть обманчивыми, потому что этот результат является особой характеристикой нормальных смесей: аналог не обязательно имеет место для других смесей, даже если компоненты имеют симметричные унимодальные распределения! Например, равная смесь из двух распределений Стьюдента, разделенных чуть менее чем в два раза их общим стандартным отклонением, будет бимодальной. Тогда для реального понимания мы должны сделать некоторую математику или обратиться к особым свойствам нормальных распределений.


Выберите единицы измерения (от центрирования и перемасштабирования по мере необходимости) для размещения средств составных распределений на ±μ, μ0, и сделать их общую дисперсию единства. Пусть p, 0<p<1, будет количеством среднего компонента в смеси. Это позволяет нам выразить плотность смеси в полной общности как

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Поскольку обе плотности компонентов увеличиваются там, где x<μ и уменьшаются там, где x>μ, единственные возможные моды возникают там, где μxμ. Найдите их, дифференцируя f относительно x и устанавливая его в ноль. Очистка любых положительных коэффициентов, которые мы получаем

0=e2xμp(xμ)+(1p)(x+μ).

Выполнение аналогичных операций со второй производной от f и замена e2xμ на значение, определенное в предыдущем уравнении, говорит нам, что знак второй производной в любой критической точке является знаком

f(x;μ,p)(1+x2μ2)xμ.

Так как знаменатель является отрицательным , когда μ<x<μ, знак f является то , что (1μ2+x2).Ясно, что когда μ1, знак должен быть отрицательным. Однако в мультимодальном распределении (поскольку плотность непрерывна), между любыми двумя модами должен быть антимод , где знак неотрицателен. Таким образом, когда μ меньше 1 (SD), распределение должно быть унимодальным.

Поскольку разделение средств составляет 2μ, заключение этого анализа

Смесь нормальных распределений унимодальна, если средние значения разделены не более чем в два раза по отношению к общему стандартному отклонению.

Это логически эквивалентно утверждению в вопросе.

Whuber
источник
12

Комментарий сверху вставлен сюда для преемственности:

f(x)=0.5g1(x)+0.5g2(x)

Комментарий продолжен:

σ=1.3σ,2σ,σ,

введите описание изображения здесь

R код для рисунка:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
источник
1
все ответы были великолепны. Спасибо.
млтфтон
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Хорошие моменты. На самом деле то, что я имел в виду под сокращенным языком «плоский», было нулевой 2-й производной точно в средней точке.
Брюс