В чем именно разница между контролируемым и неконтролируемым обучением?

28

Я пытаюсь понять методы кластеризации.

Что я думаю, я понял:

  1. При контролируемом обучении данные категорий / меток, которым назначены данные, известны до вычисления. Таким образом, метки, классы или категории используются для того, чтобы «изучить» параметры, которые действительно важны для этих кластеров.

  2. При неконтролируемом обучении наборы данных присваиваются сегментам, а кластеры не известны.

Означает ли это, что, если я даже не знаю, какие параметры имеют решающее значение для сегментации, я бы предпочел контролируемое обучение?

Prot
источник
2
Обратите внимание, что кластеризация - не единственный тип обучения без учителя.
Джордж
1
Обучение под наблюдением является предпочтительным, когда имеются данные с обозначением обучения. Вы можете разделить ваши данные, используя контролируемые или неконтролируемые методы. Основное различие заключается в том, что в контролируемой среде вы знаете ПРАВИЛЬНУЮ сегментацию для ваших тренировочных данных.
Ник

Ответы:

23

Разница в том, что в контролируемом обучении известны «категории», «классы» или «ярлыки». При неконтролируемом обучении это не так, и процесс обучения пытается найти подходящие «категории». В обоих видах обучения рассматриваются все параметры, чтобы определить, какие из них наиболее подходят для выполнения классификации.

Независимо от того, выбрали ли вы контролируемый или неконтролируемый, вы должны знать, что вы знаете о «категориях» ваших данных. Если вы знаете, используйте контролируемое обучение. Если вы не знаете, то используйте без присмотра.

Поскольку у вас есть большое количество параметров, и вы не знаете, какие из них актуальны, вы можете использовать что-то вроде анализа основных компонентов, чтобы помочь определить соответствующие параметры.

Дэйв Кларк
источник
13

Обратите внимание, что существует более 2 степеней контроля. Например, см. На страницах 24-25 (6-7) докторскую диссертацию Кристиана Бимана «Необслуживаемая и необработанная обработка естественного языка в парадигме раскрытия структуры», 2007 г.

Тезис определяет 4 степени: контролируемый, полууправляемый, слабо контролируемый и неконтролируемый, и объясняет различия в контексте обработки естественного языка. Вот соответствующие определения:

  • В контролируемых системах данные, представленные в алгоритме машинного обучения, полностью помечены. Это означает: все примеры представлены с классификацией, которую машина должна воспроизвести. Для этого из данных извлекается классификатор, процесс присвоения меток еще невидимым экземплярам называется классификацией.
  • В полуконтролируемых системах машине разрешается дополнительно учитывать немеченые данные. Из-за большей базы данных системы с полуконтролем часто опережают своих контролируемых коллег, используя те же самые маркированные примеры. Причина этого улучшения заключается в том, что более немаркированные данные позволяют системе более точно моделировать внутреннюю структуру данных.
  • Самозагрузка, также называемая самообучением, является формой обучения, которая предназначена для использования даже меньшего количества обучающих примеров, поэтому ее иногда называют слабо контролируемыми . Начальная загрузка начинается с нескольких обучающих примеров, обучает классификатор и использует предполагаемые положительные примеры, полученные этим классификатором для переподготовки. По мере роста набора обучающих примеров классификатор улучшается при условии, что не слишком много отрицательных примеров ошибочно классифицируются как положительные, что может привести к ухудшению производительности.
  • Системы без надзора вообще не предоставляют никаких обучающих примеров и проводят кластеризацию. Это разделение экземпляров данных на несколько групп. Результаты алгоритмов кластеризации основаны на данных, следовательно, более «естественны» и лучше подходят для базовой структуры данных. Это преимущество также является его основным недостатком: без возможности сообщить машине, что делать (например, при классификации), трудно точно оценить качество результатов кластеризации. Но отсутствие подготовки примера обучения делает неконтролируемую парадигму очень привлекательной.
Эрель Сегал-Халеви
источник
0

При контролируемом обучении классы известны заранее, а также их типы, например, два класса - хорошие и плохие клиенты. Когда новый объект (клиент) появляется на основе его атрибутов, клиенту может быть присвоен плохой или хороший класс клиента.

При неконтролируемом обучении группы / классы еще не известны, у нас есть объекты (клиенты), поэтому группируйте клиентов, имеющих схожие привычки покупок, следовательно, из них делаются разные группы, то есть неизвестные уже на основе схожих привычек покупок.

Саад Улла Хан
источник
0

В контролируемом обучении выход (зависимая переменная) зависит от входной переменной (независимая переменная). В некотором наборе данных наблюдений респондент пытается вычислить желаемую цель.

При неконтролируемом обучении отсутствует надзор, поэтому система пытается адаптироваться к ситуации и обучается вручную на основе определенной меры.

Например: учитель в классе -надзор-обучение под наблюдением Факультативное самообучение в классе-без надзора обучение без учителя

Cibe Sridharan
источник