Я провожу быстрое моделирование для сравнения различных методов кластеризации, и в настоящее время попадаю в ловушку, пытаясь оценить кластерные решения.
Мне известны различные метрики проверки (многие из них содержатся в cluster.stats () в R), но я предполагаю, что они лучше всего используются, если предполагаемое количество кластеров фактически равно истинному количеству кластеров. Я хочу сохранить возможность измерять, насколько хорошо работает решение для кластеризации, когда оно не указывает правильное количество кластеров в исходной имитации (т. Е. Насколько хорошо данные модели для трех кластеров, которые были смоделированы, имели 4-кластерный кластер). решение). Просто для вашей информации, кластеры моделируются, чтобы иметь идентичные ковариационные матрицы.
Я думал, что дивергенцию KL между двумя смесями Гауссиана было бы полезно реализовать, но решения в замкнутой форме не существует ( Hershey and Olson (2007) ), и реализация моделирования Монте-Карло начинает становиться вычислительно дорогой.
Существуют ли другие решения, которые могут быть легко реализованы (даже если это только приблизительное значение)?
Ответы:
Предположим, у нас есть две гауссовские смеси в : Назовите их плотности и соответственно и обозначим плотности их компонентов , через , .Rd
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj). p(⋅) q(⋅) Pi Qj pi(x)=N(x;μi,Σi) qj(x)=N(x;mj,Sj)
Следующие расстояния доступны в закрытом виде:
Максимальное среднее расхождение (MMD) с ядром гауссова RBF. Это крутая дистанция, еще не очень известная среди статистического сообщества, для определения которой требуется немного математики.
Пусть определим гильбертово пространство как воспроизводящее гильбертово пространство ядра, соответствующее : .k(x,y):=exp(−12σ2∥x−y∥2), H k k(x,y)=⟨φ(x),φ(y)⟩H
Определите ядро средней карты какK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
Тогда MMD будетMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Для наших смесей и обратите внимание, что и аналогично для и .P Q K(P,Q)=∑i,jαiβjK(Pi,Qj) K(P,P) K(Q,Q)
Используя трюки, аналогичные , получается , что равноL2 K(N(μ,Σ),N(μ′,Σ′)) (2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Как , ясно, что это сходится к кратному расстоянию . Вы обычно хотели бы использовать другой , однако, один в масштабе изменения данных.σ→0 L2 σ
Замкнутые формы также доступны для полиномиальных ядер в MMD; видетьk
Для много хороших свойств этого расстояния, см.
Квадратичное расхождение Дженсена-Реньи. Энтропия Рени- определяется как Его предел как является энтропией Шеннона. Расхождение Дженсена-Реньи равно где обозначает равную смесь между и . Оказывается, что когда и когда и являются гауссовыми смесями (как здесь), вы можете вычислить замкнутую форму для . Это было сделаноα Hα(p)=11−αlog(∫p(x)αdx). α→1 JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2 p+q2 p q α=2 P Q JR2
источник
Если ваши кластеры на самом деле не являются гауссовыми смесями, а имеют произвольную форму, ваши результаты могут быть намного лучше, когда вы создаете гораздо больше кластеров, а затем объединяете некоторые из них снова.
Во многих случаях просто выбирают k как произвольно высокий, например, 1000 для большого набора данных; в частности, когда вы на самом деле не интересуетесь моделями, а просто хотите уменьшить сложность набора данных с помощью векторного квантования.
источник
Вот обобщение Mahalanobis D для GMM с использованием метода ядра Фишера и других методов:
Типпинг, Майкл Э. «Получение кластерных аналитических дистанционных функций из моделей гауссовой смеси». (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Смотрите также: Существует ли мультигауссовская версия расстояния Махаланобиса?
источник