Я пытаюсь понять методы кластеризации.
Что я думаю, я понял:
При контролируемом обучении данные категорий / меток, которым назначены данные, известны до вычисления. Таким образом, метки, классы или категории используются для того, чтобы «изучить» параметры, которые действительно важны для этих кластеров.
При неконтролируемом обучении наборы данных присваиваются сегментам, а кластеры не известны.
Означает ли это, что, если я даже не знаю, какие параметры имеют решающее значение для сегментации, я бы предпочел контролируемое обучение?
Ответы:
Разница в том, что в контролируемом обучении известны «категории», «классы» или «ярлыки». При неконтролируемом обучении это не так, и процесс обучения пытается найти подходящие «категории». В обоих видах обучения рассматриваются все параметры, чтобы определить, какие из них наиболее подходят для выполнения классификации.
Независимо от того, выбрали ли вы контролируемый или неконтролируемый, вы должны знать, что вы знаете о «категориях» ваших данных. Если вы знаете, используйте контролируемое обучение. Если вы не знаете, то используйте без присмотра.
Поскольку у вас есть большое количество параметров, и вы не знаете, какие из них актуальны, вы можете использовать что-то вроде анализа основных компонентов, чтобы помочь определить соответствующие параметры.
источник
Обратите внимание, что существует более 2 степеней контроля. Например, см. На страницах 24-25 (6-7) докторскую диссертацию Кристиана Бимана «Необслуживаемая и необработанная обработка естественного языка в парадигме раскрытия структуры», 2007 г.
Тезис определяет 4 степени: контролируемый, полууправляемый, слабо контролируемый и неконтролируемый, и объясняет различия в контексте обработки естественного языка. Вот соответствующие определения:
источник
При контролируемом обучении классы известны заранее, а также их типы, например, два класса - хорошие и плохие клиенты. Когда новый объект (клиент) появляется на основе его атрибутов, клиенту может быть присвоен плохой или хороший класс клиента.
При неконтролируемом обучении группы / классы еще не известны, у нас есть объекты (клиенты), поэтому группируйте клиентов, имеющих схожие привычки покупок, следовательно, из них делаются разные группы, то есть неизвестные уже на основе схожих привычек покупок.
источник
В контролируемом обучении выход (зависимая переменная) зависит от входной переменной (независимая переменная). В некотором наборе данных наблюдений респондент пытается вычислить желаемую цель.
При неконтролируемом обучении отсутствует надзор, поэтому система пытается адаптироваться к ситуации и обучается вручную на основе определенной меры.
Например: учитель в классе -надзор-обучение под наблюдением Факультативное самообучение в классе-без надзора обучение без учителя
источник