В главе 9 книги «Распознавание образов и машинное обучение» описана модель гауссовой смеси:
Честно говоря, я не очень понимаю, почему это создаст особенность. Кто-нибудь может мне это объяснить? Извините, но я всего лишь студент и новичок в машинном обучении, поэтому мой вопрос может показаться немного глупым, но, пожалуйста, помогите мне. большое спасибо
gaussian-mixture
Данг Ман Чыонг
источник
источник
Ответы:
Если мы хотим подогнать гауссиан к одной точке данных, используя максимальную вероятность, мы получим очень колючий гауссиан, который «сжимается» до этой точки. Дисперсия равна нулю, когда есть только одна точка, которая в многовариантном гауссовском случае приводит к сингулярной ковариационной матрице, поэтому она называется проблемой сингулярности.
Когда дисперсия достигает нуля, вероятность гауссовой составляющей (формула 9.15) уходит в бесконечность, и модель становится переобученной. Этого не происходит, когда мы подгоняем только один гауссов к числу точек, поскольку дисперсия не может быть нулевой. Но это может произойти, когда у нас есть смесь гауссов, как показано на той же странице PRML.
Обновление :
книга предлагает два метода решения проблемы сингулярности, которые
1) сброс среднего значения и дисперсии при возникновении сингулярности
2) используя MAP вместо MLE, добавив априор.
источник
Я также немного смущен этой частью, и вот моя интерпретация. Возьмите 1D случай для простоты.
Когда один гауссов «коллапсирует» в точке данных , то есть μ = x i , общая вероятность становится равной:Икся μ = xя
Вы видите , как , то член в левом р ( х я ) → ∞ , которая, как патологический случай в GMM, но член в правой части , которая является вероятностью других точек данных р ( х ∖ я ) , по-прежнему содержит такие термины, как e - ( x n - μ ) 2σ→0 p(xi)→∞ p(x∖i) который→0экспоненциально быстро приσ→0, поэтому общее влияние на вероятность состоит в том, что оно стремится к нулю.e−(xn−μ)22σ2 →0 σ→0
Основной момент здесь заключается в том, что при подборе одного гауссиана все точки данных должны совместно использовать один набор параметров , в отличие от случая смешения, когда один компонент может «фокусироваться» на одной точке данных без ущерба для общей вероятности данных ,μ,σ
источник
Этот ответ даст представление о том, что происходит, что приводит к особой ковариационной матрице во время подгонки GMM к набору данных, почему это происходит, а также о том, что мы можем сделать, чтобы предотвратить это.
Поэтому лучше всего начать с повторения этапов во время подгонки модели гауссовой смеси к набору данных.
0. Определите, сколько источников / кластеров (c) вы хотите разместить в своих данных.
1. Инициализируйте средние значения параметров , ковариацию Σ c и Fraction_per_class π c на кластер c.
гдеN(x|μ,Σ)описывает многовариантный гауссов с: N(xi,μc,Σc)=1
ricдает нам для каждого элемента данныхxiмеру:Probabilitythatхябелонгстослс
μc=1
Σc=1
Помните, что вы должны использовать обновленные средства в этой последней формуле. Итеративно повторяют Е и М шагпока функции логарифмического правдоподобия нашей модели сходитсягде журнал правдоподобия вычисляется с: лпр(Х|П,ц,Σ)=Е N я = 1 лп(Е К
источник
Имхо, во всех ответах пропущен фундаментальный факт. Если взглянуть на пространство параметров для модели гауссовой смеси, это пространство является сингулярным вдоль подпространства, где в смеси меньше полного числа компонентов. Это означает, что производные автоматически равны нулю, и обычно все подпространство будет отображаться как mle. Говоря более философски, подпространство ковариаций менее полного ранга является границей пространства параметров, и всегда следует быть подозрительным, когда на границе возникает mle - обычно это указывает на то, что вокруг скрывается большее пространство параметров, в котором можно найти "настоящий" мле. Есть книга под названием «Алгебраическая статистика» Дртона, Штурмфельда и Салливанта. Эта проблема обсуждается в этой книге более подробно. Если вам действительно любопытно, вы должны посмотреть на это.
источник
Однако для точки данныхИксм отличается от среднего σJ , у нас будет
источник