Разница между классификацией и кластеризацией в интеллектуальном анализе данных? [закрыто]

195

Может кто-нибудь объяснить, в чем разница между классификацией и кластеризацией в интеллектуальном анализе данных?

Если можете, приведите примеры того и другого, чтобы понять основную идею.

Кристапу
источник

Ответы:

242

В целом, в классификации у вас есть набор предопределенных классов, и вы хотите знать, к какому классу относится новый объект.

Кластеризация пытается сгруппировать набор объектов и определить, есть ли какая- либо связь между объектами.

В контексте машинного обучения классификация контролируется обучением, а кластеризация - обучением без учителя .

Также взгляните на классификацию и кластеризацию в Википедии.

Феликс Клинг
источник
3
Спасибо за ответ. Так как я понимаю. В классификации у меня есть примеры, и я группирую эти примеры в тот или иной класс. Но в кластеризации у меня есть примеры, но нет классов, где можно группировать примеры. Так в кластеризации на основе примеров мне нужно найти предложения? Я прав или есть что-то важное, что нужно иметь в виду? А просьбы привести пример? С наилучшими пожеланиями, Кристапс
Кристапс
4
@ Кристапс: Я думаю, что вы правы до сих пор. Но вы не обязательно найдете классы с кластеризацией. Более того, вы хотите увидеть, образует ли какой-то набор элементов какое-то отношение (будучи ближе друг к другу в некоторой модели). Обычно вы не находите классы (если вы думаете, что используете кластеризацию для поиска классов для классификации). Это не относится к делу. Вместо этого у вас есть тренировочный набор в начале, который состоит из помеченных предметов (так что вы знаете, к какому классу они принадлежат). Затем вы тренируете алгоритм классификации, чтобы назначать предметы нужным классам, и вы проверяете
Феликс Клинг
4
правильность (что вы можете сделать, так как данные помечены). Ежедневным примером классификации будет фильтрация спама. Фильтр спама должен решить, является ли почта спамом или нет. Вы также можете указать фильтру, была ли почта ошибочно классифицирована. Для кластеризации я действительно не знаю пример. Но вы можете, например, взять 1000 сообщений Twitter, попробовать кластеризоваться, а затем проверить, какое (и если) отношение имеют кластеры.
Феликс Клинг
Я думаю, что и классификация, и кластеризация являются методом классификации , это так?
WoooHaaaa
@MrROY Если под классификацией вы подразумеваете: «упорядочить (группу людей или вещи) по классам или категориям в соответствии с общими качествами или характеристиками». , тогда да.
bitek
76

Пожалуйста, прочитайте следующую информацию:

введите описание изображения здесь

введите описание изображения здесь введите описание изображения здесь

Саяли Сонаване
источник
Кластеризация не требует знать количество классов.
D1X
5
@ D1X Правда. Вот что говорит этот ответ .. (неизвестное количество классов)
Саяли Сонавейн
57

Если вы задали этот вопрос любому лицу, занимающемуся интеллектуальным анализом данных или машинному обучению, они будут использовать термин контролируемое обучение и неконтролируемое обучение, чтобы объяснить вам разницу между кластеризацией и классификацией. Итак, позвольте мне сначала объяснить вам ключевое слово под надзором и без присмотра.

Обучение под наблюдением: предположим, у вас есть корзина, заполненная свежими фруктами, и ваша задача - собрать фрукты одного типа в одном месте. Предположим, что это яблоки, бананы, вишня и виноград. так что вы уже знаете из своей предыдущей работы, что форма каждого фрукта, так что легко собрать фрукты одного типа в одном месте. здесь ваша предыдущая работа называется обученными данными в интеллектуальном анализе данных. так что вы уже изучили вещи из своих обученных данных. Это из-за того, что у вас есть переменная ответа, которая говорит вам, что если у какого-то фрукта есть такие-то особенности, то это виноград, как у каждого фрукта.

Этот тип данных вы получите из обученных данных. Этот тип обучения называется контролируемым обучением. Эта проблема решения типа попадает под Классификацию. Таким образом, вы уже изучаете вещи, чтобы вы могли выполнять свою работу уверенно.

без присмотра: предположим, у вас есть корзина, заполненная свежими фруктами, и ваша задача - собрать фрукты одного типа в одном месте.

На этот раз вы ничего не знаете об этих фруктах, вы впервые видите эти фрукты, так как вы будете организовывать такие же фрукты?

Что вы будете делать в первую очередь, так это взять фрукт и выбрать любой физический характер этого конкретного фрукта. Предположим, вы взяли цвет.

Затем вы расставите их по цветам, тогда группы будут примерно такими. RED COLOR GROUP: яблоки и вишневые фрукты. GREEN COLOR GROUP: бананы и виноград. так что теперь вы возьмете другого физического персонажа в качестве размера, так что теперь группы будут примерно такими. КРАСНЫЙ ЦВЕТ И БОЛЬШОЙ РАЗМЕР: яблоко. КРАСНЫЙ ЦВЕТ И МАЛЕНЬКИЙ РАЗМЕР: плоды вишни. ЗЕЛЕНЫЙ ЦВЕТ И БОЛЬШОЙ РАЗМЕР: бананы. ЗЕЛЕНЫЙ ЦВЕТ И МАЛЕНЬКИЙ РАЗМЕР : виноград. работа сделана счастливым концом.

здесь вы ничего раньше не изучали, это означает, что нет данных поезда и переменной ответа. Этот тип обучения известен как обучение без учителя. кластеризация происходит под неконтролируемым обучением.

M.Abulsoud
источник
18

+ Классификация: вам даны новые данные, вы должны установить новую метку для них.

Например, компания хочет классифицировать своих потенциальных клиентов. Когда приходит новый покупатель, он должен определить, собирается ли это покупатель покупать свою продукцию или нет.

+ Кластеризация: вам предоставляется набор исторических транзакций, в которых записано, кто что купил.

Используя методы кластеризации, вы можете определить сегментацию ваших клиентов.

studyhorror
источник
3
Я бы сказал, что «когда приходит новый покупатель, он должен определить, собирается ли это покупатель покупать свою продукцию или нет». лучший кандидат для логистической регрессии. Примером классификации может быть прогнозирование того, собирается ли клиент купить модель «премиум», «стандарт» или «эконом». Пример авиакомпании: тренер, тренер с ранней посадкой, тренер с дополнительным пространством для ног.
GDB
16

Я уверен, что многие из вас слышали о машинном обучении. Дюжина из вас может даже знать, что это такое. И некоторые из вас, возможно, тоже работали с алгоритмами машинного обучения. Вы видите, куда это идет? Не многие люди знакомы с технологией, которая станет абсолютно необходимой через 5 лет. Сири - машинное обучение. Alexa Amazon - это машинное обучение. Системы рекомендации для рекламы и покупок - машинное обучение. Давайте попробуем разобраться в машинном обучении с помощью простой аналогии двухлетнего мальчика. Просто для удовольствия, давайте назовем его Kylo Ren

Источник: blog.printkeg.com

Давайте предположим, что Кило Рен видел слона. Что ему скажет его мозг? (Помните, у него минимальная способность мыслить, даже если он является преемником Вейдера). Его мозг скажет ему, что он увидел большое движущееся существо серого цвета. Затем он видит кота, и его мозг говорит ему, что это маленькое движущееся существо золотого цвета. Наконец, он видит следующую световую саблю, и его мозг говорит ему, что это неживой объект, с которым он может играть!

На данный момент его мозг знает, что сабля отличается от слона и кошки, потому что сабля - это то, с чем можно играть, и она не движется сама по себе. Его мозг может понять это, даже если Кайло не знает, что означает подвижность. Это простое явление называется кластеризацией.

Источник: jeffcarpenterblog.tumblr.com

Машинное обучение - не что иное, как математическая версия этого процесса. Многие люди, изучающие статистику, поняли, что они могут заставить некоторые уравнения работать так же, как работает мозг. Мозг может объединять похожие объекты, мозг может учиться на ошибках, а мозг может учиться распознавать вещи.

Все это можно представить с помощью статистики, и компьютерное моделирование этого процесса называется машинным обучением. Зачем нам компьютерное моделирование? потому что компьютеры могут выполнять тяжелую математику быстрее, чем человеческий мозг. Я хотел бы углубиться в математическую / статистическую часть машинного обучения, но вы не хотите вдаваться в подробности, не очистив сначала некоторые понятия.

Вернемся к Kylo Ren. Допустим, Кайло берет саблю и начинает играть с ней. Он случайно ударяет штурмовика, и штурмовик получает ранения. Он не понимает, что происходит, и продолжает играть. Затем он бьет кошку, и кошка получает травму. На этот раз Кайло уверен, что он сделал что-то плохое, и старается быть осторожнее. Но, учитывая его плохие сабельные навыки, он бьет слона и абсолютно уверен, что у него проблемы. После этого он становится чрезвычайно осторожным и целит своего отца только так, как мы видели в «Пробуждении силы» !!

Источник: joyreactor.com

Весь этот процесс обучения на вашей ошибке может быть сымитирован с помощью уравнений, где чувство, что вы делаете что-то не так, представлено ошибкой или стоимостью. Этот процесс определения того, чего не следует делать с саблей, называется классификацией. Кластеризация и классификация являются абсолютными основами машинного обучения. Давайте посмотрим на разницу между ними.

Кайло различал животных и легкую саблю, потому что его мозг решил, что легкие сабли не могут двигаться сами по себе и, следовательно, отличаются друг от друга. Решение было основано исключительно на имеющихся объектах (данных), и никакой внешней помощи или совета предоставлено не было. В отличие от этого, Кайло дифференцировал важность осторожности с легкой саблей, сначала наблюдая, что может сделать удар по объекту. Решение было не полностью основано на сабле, но на том, что она может сделать с различными объектами. Короче, здесь была некоторая помощь.

Источник: пинтрест

Из-за этой разницы в обучении кластеризацию называют методом обучения без учителя, а классификацию называют методом обучения под наблюдением. Они очень разные в мире машинного обучения и часто продиктованы типом данных. Получение помеченных данных (или вещей, которые помогают нам учиться, таких как штурмовик, слон и кошка в случае Кайло) часто является непростым делом и становится очень сложным, когда данные, подлежащие дифференцировке, велики. С другой стороны, обучение без меток может иметь свои недостатки, например, не знать, как называются метки. Если бы Кайло научился быть осторожным с саблей без каких-либо примеров или помощи, он бы не знал, что она сделает. Он просто знал бы, что это не должно быть сделано. Это своего рода неудачная аналогия, но вы понимаете!

Мы только начинаем с машинного обучения. Сама классификация может быть классификацией непрерывных чисел или классификацией меток. Например, если бы Кайло пришлось классифицировать, какова высота каждого штурмовика, было бы много ответов, потому что высоты могут быть 5,0, 5,01, 5,011 и т. Д. Но простая классификация, такая как типы легких сабель (красный, синий. Зеленый) будет иметь очень ограниченные ответы. Фактически они могут быть представлены простыми числами. Красный может быть 0, синий может быть 1 и зеленый может быть 2.

Если вы знаете основную математику, вы знаете, что 0,1,2 и 5.1,5.01,5.011 разные и называются дискретными и непрерывными числами соответственно. Классификация дискретных чисел называется логистической регрессией, а классификация непрерывных чисел называется регрессией. Логистическая регрессия также известна как категориальная классификация, поэтому не смущайтесь, читая этот термин в другом месте.

Это было очень базовое введение в машинное обучение. Я остановлюсь на статистической стороне в моем следующем посте. Пожалуйста, дайте мне знать, если мне нужны какие-либо исправления :)

Вторая часть размещена здесь . введите описание изображения здесь

Амит Джуня
источник
2
Эй, Амит, почему бы тебе не добавить свой пост в блог вместо ссылки. Ответы, содержащие только ссылки, не одобряются, потому что сайты закрываются, а вместе с ними и ответ.
Математики
3
Спасибо. Я сделаю это :)
Амит Джуня
2
«Классификация дискретных чисел называется логистической регрессией» - это значительное упрощение; LR - это только один из многих возможных методов, которые можно использовать для классификации (другие основаны на дереве (RF, GBT / XGB), NN и т. Д. «Классификация непрерывных чисел называется регрессией» является простой противоречивой; Вы имеете в виду «Предсказание непрерывных чисел» .
smci
7

Я новичок в Data Mining, но, как говорится в моем учебнике, CLASSICIATION предполагается обучать под наблюдением, а CLUSTERING - без присмотра. Разницу между контролируемым обучением и неконтролируемым обучением можно найти здесь .

Лео
источник
6

классификация

Является ли присвоение предопределенных классов к новым наблюдениям , на основе обучения на примерах.

Это одна из ключевых задач в машинном обучении.

Кластеризация (или кластерный анализ)

В то время как обычно отклоняется как "неконтролируемая классификация", это совсем другое.

В отличие от того, чему вас научат многие машинные студенты, речь идет не о назначении «классов» объектам, а о том, что они не определены заранее. Это очень ограниченное мнение людей, которые сделали слишком много классификации; Типичный пример, если у вас есть молоток (классификатор), все выглядит как гвоздь (проблема классификации) для вас . Но это также, почему люди классификации не получают навык кластеризации.

Вместо этого рассмотрите это как открытие структуры . Задача кластеризации - найти структуру (например, группы) в ваших данных, которую вы не знали раньше . Кластеризация прошла успешно, если вы узнали что-то новое. Это не удалось, если бы вы только получили структуру, которую вы уже знали.

Кластерный анализ является ключевой задачей интеллектуального анализа данных (и гадкого утенка в машинном обучении, поэтому не слушайте машинных учеников, отказывающихся от кластеризации).

«Обучение без учителя» - это оксюморон

Это было повторено вверх и вниз по литературе, но неконтролируемое обучение является более важным . Его не существует, но это оксюморон как «военная разведка».

Либо алгоритм учится на примерах (тогда это «контролируемое обучение»), либо он не учится. Если все методы кластеризации являются «обучаемыми», то вычисление минимума, максимума и среднего для набора данных также является «обучением без контроля». Тогда любое вычисление «узнало» свой вывод. Таким образом, термин «обучение без учителя» совершенно бессмысленен , он означает все и ничего.

Однако некоторые алгоритмы «обучения без учителя» попадают в категорию оптимизации . Например, k-means - это оптимизация методом наименьших квадратов. Такие методы распространяются на всю статистику, поэтому я не думаю, что нам нужно маркировать их «обучением без надзора», но вместо этого следует продолжать называть их «проблемами оптимизации». Это точнее и значимее. Существует множество алгоритмов кластеризации, которые не включают оптимизацию и плохо вписываются в парадигмы машинного обучения. Так что перестаньте сжимать их там под зонтиком "обучение без присмотра".

Существует некоторое «обучение», связанное с кластеризацией, но это не программа, которая учится. Именно пользователь должен узнавать что-то новое о своем наборе данных.

ВЫЙТИ - Anony-Mousse
источник
Этот ответ заставил меня понять, что я был классификационным человеком. Это действительно помогло мне.
Кта
Каждый алгоритм кластеризации предполагает общую метамодель. Кстати, то же самое касается обучения под наблюдением, например, нейронных сетей (NN). В обоих случаях (под наблюдением и без надзора) мы оптимизируем параметры общей метамодели для соответствия данным в соответствии с (иногда скрытой) функцией стоимости. (Эта часть называется «обучение».) Это относится как к кластеризации, так и к классификации. В обоих случаях мы изучаем конкретную модель (основанную на предполагаемой общей метамодели) посредством оптимизации в соответствии с представленными данными. Используя специальную оптимизированную модель кластеризации, мы можем объединить данные в группы.
Make42
TL; DR: Вы правы в том, что кластеризация не является «неконтролируемой классификацией», но обучение с использованием контроля не является оксюмороном - обучение происходит !
Make42
Где, например, «обучение» в DBSCAN?
Выйти - Anony-Mousse
4

При кластеризации вы можете группировать данные с желаемыми свойствами, такими как число, форма и другие свойства извлеченных кластеров. При этом в классификации количество и форма групп являются фиксированными. Большинство алгоритмов кластеризации дают количество кластеров в качестве параметра. Однако существует несколько подходов для определения подходящего количества кластеров.

Рухолла Гасемпур
источник
4

Прежде всего, как и многие ответы здесь: классификация контролируется, а кластеризация не контролируется. Это означает:

  1. Классификация нуждается в маркировке данных, чтобы классификаторы могли обучаться этим данным, и после этого начать классифицировать новые невидимые данные на основе того, что он знает. При неконтролируемом обучении, таком как кластеризация, не используются помеченные данные, и на самом деле он обнаруживает внутренние структуры данных, таких как группы.

  2. Еще одно различие между обоими методами (связанными с предыдущим) заключается в том, что классификация является формой проблемы дискретной регрессии, когда выходной результат является категориально зависимой переменной. Принимая во внимание, что вывод кластеризации дает набор подмножеств, называемых группами. Способ оценки этих двух моделей также различен по одной и той же причине: при классификации вам часто приходится проверять точность и отзыв, такие вещи, как переоснащение и недостаточное оснащение и т. Д. Эти вещи скажут вам, насколько хороша модель. Но при кластеризации вам обычно требуется видение и опыт для интерпретации того, что вы найдете, потому что вы не знаете, какой у вас тип структуры (тип группы или кластер). Вот почему кластеризация относится к исследовательскому анализу данных.

  3. Наконец, я бы сказал, что приложения являются основным отличием между ними. Классификация, как говорит само слово, используется для различения случаев, которые принадлежат к тому или иному классу, например, мужчина или женщина, кошка или собака и т. Д. Кластеризация часто используется при диагностике медицинских заболеваний, обнаружении закономерностей, и т.п.

Оскар Гутьеррес
источник
3

Классификация : Прогнозирование результатов в дискретном выводе => преобразование входных переменных в дискретные категории

введите описание изображения здесь

Популярные варианты использования:

  1. Классификация электронной почты: спам или не спам

  2. Санкционный кредит клиенту: да, если он способен выплатить EMI за санкционированную сумму кредита. Нет, если он не может

  3. Идентификация раковых опухолевых клеток: критическая или некритическая?

  4. Анализ настроений твитов: является ли твит положительным или отрицательным или нейтральным

  5. Классификация новостей: классифицируйте новости на один из заранее определенных классов - политика, спорт, здоровье и т. Д.

Кластеризация : задача группирования набора объектов таким образом, чтобы объекты в одной и той же группе (называемой кластером) были больше похожи (в некотором смысле) друг на друга, чем на объекты в других группах (кластерах).

введите описание изображения здесь

введите описание изображения здесь

Популярные варианты использования:

  1. Маркетинг: выявление клиентских сегментов в маркетинговых целях

  2. Биология: классификация среди разных видов растений и животных

  3. Библиотеки: кластеризация разных книг на основе тем и информации

  4. Страхование: признание клиентов, их политики и выявление мошенничества

  5. Градостроительство. Составьте группы домов и изучите их стоимость в зависимости от их географического положения и других факторов.

  6. Исследования землетрясений: выявление опасных зон

  7. Система рекомендаций :

Ссылки:

geeksforgeeks

dataaspirant

3leafnodes

Равиндра Бабу
источник
2

Классификация. Предсказывает категориальные метки классов. Классифицирует данные (создает модель) на основе обучающего набора и значений (меток классов) в атрибуте метки класса. Использует модель при классификации новых данных.

Кластер: набор объектов данных - похожий друг на друга в одном кластере - не похож на объекты в других кластерах

Джордж
источник
2

Целью кластеризации является поиск групп в данных. «Кластер» является интуитивным понятием и не имеет математически строгого определения. Члены одного кластера должны быть похожи друг на друга и отличаться от членов других кластеров. Алгоритм кластеризации работает с немаркированным набором данных Z и создает на нем раздел.

Для классов и меток классов класс содержит похожие объекты, тогда как объекты из разных классов отличаются. Некоторые классы имеют четкое значение и в простейшем случае являются взаимоисключающими. Например, при проверке подписи подпись является подлинной или поддельной. Истинный класс - один из двух, независимо от того, что мы не сможем правильно угадать из наблюдения конкретной сигнатуры.

Dr.Eng.Amr
источник
2

Кластеризация - это метод группировки объектов таким образом, что объекты со схожими объектами объединяются, а объекты с различными объектами расходятся. Это распространенный метод статистического анализа данных, используемый в машинном обучении и интеллектуальном анализе данных.

Классификация - это процесс категоризации, при котором объекты распознаются, дифференцируются и понимаются на основе обучающего набора данных. Классификация - это контролируемая методика обучения, при которой имеется обучающий набор и правильно определенные наблюдения.

Сумит Ранджан
источник
2

Из книги «Махут в действии», и я думаю, что она очень хорошо объясняет разницу:

Алгоритмы классификации связаны с алгоритмами кластеризации, такими как алгоритм k-средних, но все же сильно отличаются от них.

Алгоритмы классификации являются формой контролируемого обучения, в отличие от неконтролируемого обучения, которое происходит с алгоритмами кластеризации.

Алгоритм контролируемого обучения - это тот, который дает примеры, которые содержат желаемое значение целевой переменной. Неуправляемые алгоритмы не дают желаемого ответа, но вместо этого должны найти что-то правдоподобное самостоятельно.

aristotll
источник
2

Один лайнер для классификации:

Классификация данных по заранее определенным категориям

Один лайнер для кластеризации:

Группировка данных в набор категорий

Ключевое отличие:

Классификация берет данные и помещает их в заранее определенные категории, а при кластеризации набор категорий, в которые вы хотите сгруппировать данные, заранее неизвестен.

Вывод:

  • Классификация присваивает категорию 1 новому элементу, основываясь на уже помеченных элементах, в то время как кластеризация берет группу немаркированных элементов и делит их на категории.
  • В Классификации категории \ группы, подлежащие разделению, известны заранее, в то время как в Кластеризации категории \ группы, подлежащие разделению, заранее неизвестны.
  • В классификации есть 2 этапа - этап обучения и этап тестирования, а в кластеризации - только 1 этап - разделение данных обучения на кластеры.
  • Классификация - контролируемое обучение, в то время как кластеризация - обучение без учителя

Я написал длинный пост на ту же тему, который вы можете найти здесь:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/

Ниль
источник
1

Если вы пытаетесь подать большое количество листов на полку (на основе даты или какой-либо другой спецификации файла), вы КЛАССИФИЦИРУЕТЕ.

Если бы вы создавали кластеры из набора листов, это означало бы, что среди листов есть нечто похожее.

0aslam0
источник
1

В интеллектуальном анализе данных есть два определения: «Контролируемый» и «Неуправляемый». Когда кто-то говорит компьютеру, алгоритму, коду, ... что эта вещь похожа на яблоко, а эта - на апельсин, это контролируемое обучение и использование контролируемого обучения (например, тегов для каждого образца в наборе данных) для классификации данные, вы получите классификацию. Но, с другой стороны, если вы позволите компьютеру выяснить, что к чему, и проведете различие между функциями данного набора данных, фактически изучая их без присмотра, для классификации набора данных это будет называться кластеризацией. В этом случае данные, которые передаются в алгоритм, не имеют тегов, и алгоритм должен находить разные классы.

siii fsxa
источник
1

Машинное обучение или ИИ в значительной степени воспринимается задачей, которую он выполняет / достигает.

На мой взгляд, размышления о кластеризации и классификации в понятии задачи, которую они достигают, могут действительно помочь понять разницу между ними.

Кластеризация предназначена для группировки вещей, а классификация - для маркировки вещей.

Предположим, вы находитесь в конференц-зале, где все мужчины в костюмах, а женщины в платьях.

Теперь вы задаете своему другу несколько вопросов:

Q1: Эй, можешь помочь мне сгруппировать людей?

Возможные ответы, которые может дать ваш друг:

1: он может группировать людей по полу, мужчине или женщине

2: он может группировать людей по их одежде, 1 носить костюмы, другие носить платья

3: он может группировать людей по цвету их волос

4: Он может группировать людей по возрасту и т. Д. И т. Д. И т. Д.

Есть множество способов, которыми ваш друг может выполнить эту задачу.

Конечно, вы можете влиять на его процесс принятия решений, предоставляя дополнительные материалы, такие как:

Можете ли вы помочь мне сгруппировать этих людей по полу (или возрастной группе, цвету волос, одежде и т. Д.)?

Q2:

Перед Q2, вам нужно сделать некоторую предварительную работу.

Вы должны научить или сообщить своему другу, чтобы он мог принять обоснованное решение. Итак, допустим, вы сказали своему другу, что:

  • Люди с длинными волосами - женщины.

  • Люди с короткими волосами - мужчины.

Q2. Теперь вы указываете на Человека с длинными волосами и спрашиваете своего друга - это мужчина или женщина?

Единственный ответ, который вы можете ожидать, это: Женщина.

Конечно, на вечеринке могут быть мужчины с длинными волосами и женщины с короткими волосами. Но ответ верен, основываясь на знаниях, которые вы предоставили своему другу. Вы можете еще больше улучшить этот процесс, научив своего друга тому, как проводить различия между ними.

В приведенном выше примере

Q1 представляет задачу, которую достигает Clustering.

В Clustering вы предоставляете данные (людей) алгоритму (вашему другу) и просите его сгруппировать данные.

Теперь алгоритм должен решить, каков наилучший способ группировки? (Пол, Цвет или возрастная группа).

Опять же, вы можете определенно влиять на решение, принятое алгоритмом, предоставляя дополнительные входные данные.

Q2 представляет задачу, которую классификация достигает.

Там вы даете своему алгоритму (вашему другу) некоторые данные (люди), называемые данными обучения, и заставляете его узнать, какие данные соответствуют какому-либо ярлыку (мужской или женский). Затем вы указываете свой алгоритм на определенные данные, называемые тестовыми данными, и просите его определить, мужской это или женский. Чем лучше ваше учение, тем лучше прогноз.

А предварительная работа в Q2 или Classification - это не что иное, как тренировка вашей модели, чтобы она могла научиться дифференцироваться. В кластеризации или Q1 эта предварительная работа является частью группировки.

Надеюсь, это кому-нибудь поможет.

Спасибо

Ikhurana
источник
1

введите описание изображения здесь

Классификация - набор данных может иметь разные группы / классы. красный, зеленый и черный. Классификация попытается найти правила, которые делят их на разные классы.

Custering- если набор данных не имеет какого-либо класса и вы хотите поместить их в какой-то класс / группу, вы делаете кластеризацию. Фиолетовые круги выше.

Если правила классификации не хороши, у вас будет неправильная классификация в тестировании, или ваши правила не будут правильными.
если кластеризация не очень хорошая, у вас будет много выбросов, т.е. Точки данных не могут попасть ни в один кластер.

Арпит Сизодия
источник
1

Основные различия между классификацией и кластеризацией: Классификация - это процесс классификации данных с помощью меток классов. С другой стороны, кластеризация похожа на классификацию, но предопределенных меток классов нет. Классификация ориентирована на контролируемое обучение. В отличие от этого, кластеризация также известна как обучение без учителя. Образец обучения предоставляется в методе классификации, а в случае кластеризации данные обучения не предоставляются.

Надеюсь, это поможет!

Мох К
источник
-1

Я считаю, что классификация - это классификация записей в наборе данных на предопределенные классы или даже определение классов на ходу. Я рассматриваю это как предварительное условие для любого ценного интеллектуального анализа данных, мне нравится думать об этом при обучении без учителя, т.е. никто не знает, что он ищет, в то время как анализ данных и классификация служат хорошей отправной точкой

Кластеризация на другом конце подпадает под контролируемое обучение, то есть известно, какие параметры нужно искать, корреляцию между ними наряду с критическими уровнями. Я считаю, что это требует некоторого понимания статистики и математики

Ашиш Верма
источник
3
На самом деле все наоборот. Классификация обычно контролируется, а кластеризация обычно не контролируется.
AlexK