Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации).
Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете и как. Кто-то может сказать: «Лучший метод кластеризации - это правильный ответ»; но я могу спросить в ответ, что кластерный анализ должен быть неконтролируемым методом - так как я узнаю, какой метод или связь является правильным ответом?
В целом: достаточно ли одной кластеризации, на которую можно положиться? Или нам нужен второй метод и получить общий результат, основанный на обоих?
Мой вопрос касается не только возможных способов проверки / оценки производительности кластеризации, но и более широкого - на каком основании мы выбираем / предпочитаем один метод / алгоритм кластеризации другому. Кроме того, есть ли общие предупреждения, которые мы должны осмотреть, когда выбираем метод для кластеризации наших данных?
Я знаю, что это очень общий вопрос и очень трудно ответить. Я только хотел бы знать, если у вас есть какие-либо комментарии или какие-либо советы или предложения для меня, чтобы узнать больше об этом.
Ответы:
Часто говорят, что нет другого аналитического метода, столь же сильного, как «как посеешь, то и скажешь», как кластерный анализ.
Я могу представить себе ряд измерений или аспектов «правильности» того или иного метода кластеризации :
Кластерная метафора . «Я предпочел этот метод, потому что он представляет собой кластеры, такие (или такие), которые соответствуют моей концепции кластера в моем конкретном проекте» . Каждый алгоритм или подалгоритм / метод кластеризации подразумевает свою соответствующую структуру / структуру / форму кластера. Что касается иерархических методов, я наблюдал это в одном из пунктов здесь , а также здесь, Т.е. некоторые методы дают кластеры, которые являются прототипами "типов", другие дают "круги [по интересам]", еще другие "[политические] платформы", "классы", "цепочки" и т. Д. Выберите тот метод, метафора кластера которого вам подходит. Например, если я рассматриваю свои сегменты клиентов как типы - более или менее сферические фигуры с уплотнением (ями) посередине, я выберу метод связи Уорда или К-среднее, но, разумеется, никогда не использую метод одиночной связи. Если мне нужен фокусный представитель, я мог бы использовать метод Medoid. Если мне нужно отобрать точки, чтобы они были представителями ядра и периферии, я мог бы использовать подход DBSCAN.
Данные / метод предположения . «Я предпочел этот метод, потому что моя природа данных или формат предрасполагают к нему» . Этот важный и обширный момент также упоминается в моей ссылке выше. Разные алгоритмы / методы могут требовать различного вида данных для них или разных мер близости, которые должны применяться к данным, и наоборот, разные данные могут требовать разных методов. Существуют методы количественных и методы качественных данных. Смесь количественных + качественных характеристик резко сужает область выбора среди методов. Уорд или К-значитоснованы - явно или неявно - только на (квадратичной) евклидовой дистанционной мере, а не на произвольной мере. Двоичные данные могут требовать специальных мер сходства, которые, в свою очередь, будут подвергать сомнению использование некоторых методов, например, методов Уорда или К-средних. Большие данные могут нуждаться в специальных алгоритмах или специальных реализациях.
Внутренняя действительность . «Я предпочел этот метод, потому что он дал мне наиболее четкие, плотные и изолированные кластеры» . Выберите алгоритм / метод, который показывает лучшие результаты для ваших данных с этой точки зрения. Чем плотнее и плотнее кластеры внутри и чем меньше плотность снаружи (или чем шире кластеры), тем больше внутренняя валидность. Выберите и используйте соответствующие внутренние критерии кластеризации ( которых достаточно - Calinski-Harabasz, Silhouette и т. Д. И т. Д .; иногда также называемые «правилами остановки») для его оценки. [Остерегайтесь переобучения: все методы кластеризации стремятся максимизировать некоторую версию внутренней валидности (это то , что кластеризация является1 о), поэтому высокая достоверность может быть отчасти обусловлена случайной особенностью данного набора данных; наличие тестового набора данных всегда полезно.]
Внешняя валидность . «Я предпочел этот метод, потому что он дал мне кластеры, которые отличаются по своему фону или кластеры, которые соответствуют истинным, которые я знаю» . Если кластеризованный раздел представляет кластеры, которые явно отличаются по некоторым важным фоновым (то есть не участвовавшим в кластерном анализе) характеристикам, то это актив для того метода, который создал раздел. Используйте любой анализ, который применяется, чтобы проверить разницу; также существует ряд полезных внешних критериев кластеризации(Рэнд, F-мера и т. Д. И т. Д.). Другой вариант внешней проверки - это когда вы каким-то образом знаете истинные кластеры в ваших данных (знаете «основную правду»), например, когда вы сами генерировали кластеры. То, насколько точно ваш метод кластеризации способен обнаружить реальные кластеры, является мерой внешней валидности.
Перекрестная достоверность . «Я предпочел этот метод, потому что он дает мне очень похожие кластеры на эквивалентных выборках данных или хорошо экстраполирует на такие выборки» . Существуют различные подходы и их гибриды, некоторые из которых более приемлемы для одних методов кластеризации, а другие - для других методов. Два основных подхода - проверка стабильности и обобщаемостьчек. Проверяя стабильность метода кластеризации, можно случайным образом разбить или повторно выбрать данные в частично пересекающихся или полностью непересекающихся наборах и выполнить кластеризацию для каждого из них; затем сопоставляет и сравнивает решения с некоторой возникающей характеристикой кластера (например, центральное местоположение кластера), является ли она стабильной по наборам. Проверка универсальности подразумевает выполнение кластеризации в наборе поездов, а затем использование его возникающей характеристики или правила кластера для назначения объектов набора тестов, а также выполнение кластеризации в наборе тестов. Затем сравниваются принадлежащие кластеру результаты присваивания и результаты кластеризации объектов тестового набора.
Интерпретация . «Я предпочел этот метод, потому что он дал мне кластеры, которые, как объяснили, являются наиболее убедительными, что есть смысл в мире» . Это не статистически - это ваша психологическая проверка. Насколько значимы результаты для вас, домена и, возможно, аудитории / клиента. Выберите метод, дающий наиболее интерпретируемые, пряные результаты.
Стадность . Некоторые исследования регулярно и все исследования иногда говорят: «Я предпочел этот метод, потому что он дал с моими данными аналогичные результаты с рядом других методов среди всех, кого я исследовал» . Это эвристическая, но сомнительная стратегия, предполагающая, что существуют достаточно универсальные данные или совершенно универсальный метод.
Пункты 1 и 2 являются теоретическими и предшествуют получению результата; Исключительно полагаться на эти моменты является надменной, уверенной в себе исследовательской стратегии. Пункты 3, 4 и 5 являются эмпирическими и следуют за результатом; Исключительно полагаться на эти моменты - это непосильная, испытательная стратегия. Пункт 6 является творческим, что означает, что он отрицает любой результат, чтобы попытаться повторно его оправдать. Пункт 7 - верный фаворит.
Точки с 3 по 7 также могут быть судьями при выборе «лучшего» количества кластеров .
источник
В основном это критерии красного флага . Свойства данных, которые сообщают вам, что определенный подход обязательно потерпит неудачу.
если вы не знаете, что означают ваши данные, прекратите их анализ. Вы просто угадываете животных в облаках.
если атрибуты изменяются в масштабе и являются нелинейными или искаженными. это может испортить ваш анализ, если у вас нет очень хорошей идеи соответствующей нормализации. Остановитесь и научитесь понимать ваши особенности, кластеризовать еще рано.
если каждый атрибут эквивалентен (тот же масштаб) и является линейным, и вы хотите квантовать свой набор данных (и ошибка наименьших квадратов имеет значение для ваших данных), тогда стоит попробовать k-means. Если ваши атрибуты имеют различный вид и масштаб, результат не является четко определенным. Контрпример: возраст и доход. Доход очень искажен, и
x years = y dollar
это чепуха.если у вас есть очень четкое представление о том, как количественно определить сходство или расстояние ( значимым образом; возможности вычислить некоторое число недостаточно), тогда иерархическая кластеризация и DBSCAN являются хорошим выбором. Если вы не знаете, как определить сходство, сначала решите эту проблему.
Вы видите, что наиболее распространенная проблема заключается в том, что люди пытаются сбросить свои необработанные данные в кластеризацию, когда им сначала нужно понять и нормализовать их и выяснить сходство.
Примеры:
Пиксели изображения в RGB-пространстве. Наименьшие квадраты имеют некоторый смысл, и все атрибуты сравнимы - k-означает хороший выбор.
Географические данные: наименьших квадратов не очень уместно. будут выбросы. но расстояние очень значимо. Используйте DBSCAN, если у вас много шума, или HAC (иерархическая агломерационная кластеризация), если у вас очень чистые данные.
Виды наблюдаются в разных местах обитания. Наименьшие квадраты сомнительны, но, например, сходство Жакара имеет смысл. Вероятно, у вас мало наблюдений и нет «ложных» мест обитания - используйте HAC.
источник
stop criteria
. Ведь, как вы знаете, «правила остановки» или «критерии остановки» являются синонимом «внутренних критериев кластеризации» в области иерархической кластеризации. Итак, это озабоченный термин. Но вы подразумеваете эти слова в другом смысле в ответе, и это может запутать читателя.(non)linear attributes
. Что вы имеете в виду? Каким образом «линейный» атрибут? или вы говорите о линейных отношениях , то есть эллипсоидных (а не изогнутых) формах кластеров?Я не думаю, что есть хороший формальный способ сделать это; Я думаю, что хорошие решения имеют смысл по существу.
Конечно, вы можете попытаться разделить данные и кластеризовать несколько раз и так один, но тогда остается вопрос, какой из них полезен.
источник