Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»?
Об этом много ссылок:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
так далее ...
Ответы:
Я наивно понимаю, что классификация выполняется там, где у вас есть определенный набор классов, и вы хотите классифицировать новую вещь / набор данных в один из этих указанных классов.
Альтернативно, кластеризация не имеет ничего общего с началом, и вы используете все данные (включая новые) для разделения на кластеры.
Оба используют метрики расстояния, чтобы решить, как кластеризовать / классифицировать. Разница в том, что классификация основана на ранее определенном наборе классов, тогда как кластеризация определяет кластеры на основе всех данных.
Опять же, мое наивное понимание состоит в том, что контролируемая кластеризация по-прежнему кластеризована на основе всех данных и, следовательно, будет кластеризацией, а не классификацией.
В действительности я уверен, что теория кластеризации и классификации взаимосвязана.
источник
Я не думаю, что знаю больше, чем вы, но ссылки, которые вы разместили, предлагают ответы. Я возьму http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf в качестве примера. В основном они заявляют: 1) кластеризация зависит от расстояния. 2) успешное использование k-средних требует тщательно подобранного расстояния. 3) Учитывая обучающие данные в форме наборов элементов с их желаемым разделением, мы предоставляем структурный метод SVM, который изучает меру расстояния, так что k-means создает желаемые кластеризации.В этом случае существует контролируемая стадия кластеризации, как с данными обучения, так и с обучением. Целью этого этапа является изучение функции расстояния, так что применение кластеризации k-средних с этим расстоянием, будем надеяться, будет оптимальным, в зависимости от того, насколько хорошо обучающие данные напоминают предметную область. Все обычные предостережения, подходящие для машинного обучения и кластеризации, все еще применяются.
Далее цитата из статьи: Контролируемая кластеризация - это задача автоматической адаптации алгоритма кластеризации с помощью обучающего набора, состоящего из наборов элементов и полных разбиений этих наборов элементов. , Это кажется разумным определением.
источник
Некоторые определения:
контролируемая кластеризация применяется к классифицированным примерам с целью идентификации кластеров, которые имеют высокую плотность вероятности для одного класса.
Неуправляемая кластеризация - это обучающая структура, использующая определенные функции объекта, например, функцию, которая минимизирует расстояния внутри кластера, чтобы держать кластер напряженным.
Полууправляемая кластеризация призвана улучшить алгоритм кластеризации, используя дополнительную информацию в процессе кластеризации.
Достижения в нейронных сетях - ISNN 2010
Без использования слишком большого количества жаргона, так как я новичок в этой области, способ, которым я понимаю контролируемую кластеризацию , более похож на это:
в контролируемой кластеризации вы начинаете сверху внизс некоторыми предопределенными классами, а затем, используя подход « снизу вверх», вы находите, какие объекты лучше вписываются в ваши классы.
Например, вы провели исследование относительно любимого типа апельсинов в популяции.
Из множества видов апельсинов вы обнаружили, что определенный «вид» апельсинов является предпочтительным.
Тем не менее, этот тип апельсина очень деликатный и лабильный к инфекциям, изменению климата и другим факторам окружающей среды.
Таким образом, вы хотите скрестить его с другими видами, которые очень устойчивы к этим оскорблениям.
Затем вы идете в лабораторию и обнаруживаете некоторые гены, которые отвечают за сочный и сладкий вкус одного типа, а также за стойкие способности другого типа.
Вы проводите несколько экспериментов и заканчиваете, скажем, сотнями разных подтипов апельсинов.
Теперь вас интересуют только те подтипы, которые идеально соответствуют описанным свойствам.
Вы не хотите снова проводить такое же исследование в вашем населении ...
Вы знаете свойства, которые ищете в своем идеальном апельсине.
Итак, вы запускаете кластерный анализ и выбираете те, которые лучше всего соответствуют вашим ожиданиям.
источник