Между ними существует значительное совпадение, но некоторые различия могут быть сделаны. По необходимости, мне придется чрезмерно упростить некоторые вещи или дать краткую оценку другим, но я сделаю все возможное, чтобы дать некоторое представление об этих областях.
Во-первых, искусственный интеллект довольно сильно отличается от остальных. ИИ - это изучение того, как создавать интеллектуальных агентов. На практике это то, как запрограммировать компьютер так, чтобы он вел себя и выполнял задачу, как интеллектуальный агент (скажем, человек). Это вовсе не должно включать обучение или индукцию, это может быть просто способ «построить лучшую мышеловку». Например, приложения AI включают программы для мониторинга и контроля текущих процессов (например, увеличение аспекта A, если оно кажется слишком низким). Обратите внимание, что ИИ может включать в себя все, что делает машина, до тех пор, пока она не делает это «глупо».
Однако на практике большинство задач, требующих интеллекта, требуют способности извлекать новые знания из опыта. Таким образом, большая область в ИИ - машинное обучение . Говорят, что компьютерная программа изучает некоторую задачу из опыта, если ее производительность при выполнении этой задачи улучшается с опытом, в соответствии с некоторым показателем производительности. Машинное обучение включает в себя изучение алгоритмов, которые могут извлекать информацию автоматически (т. Е. Без участия человека в режиме онлайн). Это, безусловно, тот случай, когда некоторые из этих процедур включают идеи, полученные непосредственно из классической статистики или вдохновленные ими, но они не имеютбыть. Как и в случае с ИИ, машинное обучение очень широкое и может включать в себя практически все, если в нем есть индуктивный компонент. Примером алгоритма машинного обучения может служить фильтр Калмана.
Интеллектуальный анализ данных - это область, которая в значительной степени черпала вдохновение и учила у машинного обучения (а некоторые также из статистики), но ставит перед собой разные цели . Интеллектуальный анализ данных выполняется человеком в конкретной ситуации с определенным набором данных с учетом поставленной цели. Как правило, этот человек хочет использовать возможности различных методов распознавания образов, которые были разработаны в машинном обучении. Довольно часто набор данных является массивным , сложным и / или может иметь особые проблемы(например, есть больше переменных, чем наблюдений). Обычно цель состоит в том, чтобы либо обнаружить / сформировать некоторые предварительные сведения в области, где действительно было мало знаний заранее, либо уметь точно прогнозировать будущие наблюдения. Более того, процедуры извлечения данных могут быть либо «без присмотра» (мы не знаем ответ - обнаружение), либо «под надзором» (мы знаем ответ - прогноз). Обратите внимание, что цель, как правило, не состоит в том, чтобы выработать более глубокое понимание процесса генерации данных. Общие методы добычи данных включают кластерный анализ, деревья классификации и регрессии и нейронные сети.
Я полагаю, мне не нужно много говорить, чтобы объяснить, что статистика на этом сайте, но, возможно, я могу сказать несколько вещей. Классическая статистика (здесь я имею в виду как частых, так и байесовских) является подтемой в математике. Я думаю, что это в значительной степени пересечение того, что мы знаем о вероятности и того, что мы знаем об оптимизации. Хотя математическую статистику можно изучать просто как платоновский объект исследования, ее в основном понимают как более практичную и прикладную по своему характеру, чем другие, более разреженные области математики. Как таковой (и особенно в отличие от интеллектуального анализа данных выше), он в основном используется для лучшего понимания какого-то конкретного процесса генерации данных. Таким образом, обычно начинается с формально указанной моделии из этого получены производные процедуры для точного извлечения этой модели из зашумленных случаев (т. е. оценки - путем оптимизации некоторой функции потерь) и для возможности отличить ее от других возможностей (т. е. выводов, основанных на известных свойствах распределений выборки). Прототипом статистической техники является регрессия.
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.
Можно ли с уверенностью сказать, что нейронная сеть является примером инструмента машинного обучения, используемого в интеллектуальном анализе данных, по сравнению с кластерным анализом, который представляет собой алгоритм, не предназначенный для машинного обучения, используемого для интеллектуального анализа данных?Во многих других ответах были затронуты основные моменты, но вы просили иерархию, если таковая существует, и то, как я ее вижу, хотя каждая из них является отдельной дисциплиной, существует иерархия, о которой, кажется, никто еще не упомянул, поскольку каждая основывается на предыдущий.
Короче говоря
Теперь, как говорится, будут некоторые проблемы с ИИ, которые относятся только к ИИ и аналогичным образом для других областей, но большинство интересных современных проблем (например, самостоятельное вождение автомобилей) можно легко и правильно назвать всеми этими. Надеюсь, это прояснит отношения между ними, о которых вы спрашивали.
источник
В целом вероятностные модели (и, следовательно, статистика) оказались наиболее эффективным способом формального структурирования знаний и понимания в машине до такой степени, что все три других (AI, ML и DM) сегодня в основном являются подполями статистика. Не первая дисциплина, ставшая теневым рычагом статистики ... (экономика, психология, биоинформатика и т. Д.)
источник
Можно сказать, что все они связаны, но все они разные вещи. Хотя между ними может быть что-то общее, например, в статистике и интеллектуальном анализе данных вы используете методы кластеризации.
Позвольте мне попытаться кратко определить каждый:
Статистика - это очень старая дисциплина, в основном основанная на классических математических методах, которые могут использоваться для той же цели, что и анализ данных, который иногда классифицирует и группирует вещи.
Интеллектуальный анализ данных состоит из построения моделей для выявления шаблонов, которые позволяют нам классифицировать или прогнозировать ситуации с учетом количества фактов или факторов.
Искусственный интеллект (см. Марвина Мински *) - это дисциплина, которая пытается подражать тому, как мозг работает с методами программирования, например, при создании программы, которая играет в шахматы.
Машинное обучение - это задача накопления знаний и их хранения в той или иной форме на компьютере; эта форма может представлять собой математические модели, алгоритмы и т. д. Все, что может помочь в обнаружении закономерностей.
источник
Я больше всего знаком с машинным обучением - осью интеллектуального анализа данных - поэтому я сосредоточусь на этом:
Машинное обучение имеет тенденцию интересоваться умозаключениями в нестандартных ситуациях, например, неидентифицированных данных, активном обучении, полууправляемом обучении, обучении на основе структурированных данных (например, строк или графиков). ML также имеет тенденцию интересоваться теоретическими границами того, что можно изучить, что часто служит основой для используемых алгоритмов (например, машина опорных векторов). ML, как правило, имеет байесовскую природу.
Data mining заинтересован в поиске шаблонов в данных, о которых вы еще не знаете. Я не уверен, что это существенно отличается от аналитического анализа данных в статистике, тогда как в машинном обучении, как правило, существует более четко определенная проблема, которую необходимо решить.
ML, как правило, больше интересуется небольшими наборами данных, где проблема заключается в перенастройке, а интеллектуальный анализ данных имеет тенденцию интересоваться крупномасштабными наборами данных, где проблема связана с количеством данных.
Статистика и машинное обучение предоставляют множество основных инструментов, используемых майнерами данных.
источник
Вот мой взгляд на это. Давайте начнем с двух очень широких категорий:
И ML, и DM, как правило, являются ИИ и статистикой, так как они обычно включают в себя основные методы из обоих. Вот некоторые из различий:
Кроме того, интеллектуальный анализ данных обычно включает в себя гораздо больше управления данными , то есть как организовать данные в эффективные структуры индекса и базы данных.
К сожалению, их не так просто разлучить. Например, существует «неконтролируемое обучение», которое часто более тесно связано с СД, чем с ОД, так как оно не может оптимизироваться для достижения цели. С другой стороны, методы DM сложно оценить (как вы оцениваете то, что вы не знаете?) И часто оцениваются по тем же задачам, что и машинное обучение, пропуская некоторую информацию. Это, однако, обычно заставляет их работать хуже, чем методы машинного обучения, которые могут оптимизироваться в соответствии с фактической целью оценки.
Кроме того, они часто используются в комбинациях. Например, метод интеллектуального анализа данных (скажем, кластеризация или обнаружение неконтролируемых выбросов) используется для предварительной обработки данных, а затем метод машинного обучения применяется к предварительно обработанным данным для обучения лучших классификаторов.
Машинное обучение, как правило, гораздо проще оценить: есть такая цель, как оценка или прогноз класса. Вы можете вычислить точность и вспомнить. В области интеллектуального анализа данных большая часть оценки выполняется путем пропуска некоторой информации (например, меток классов) и последующей проверки того, обнаружил ли ваш метод ту же структуру. Это наивно в том смысле, что вы предполагаете, что метки классов полностью кодируют структуру данных; Вы фактически наказываете алгоритм интеллектуального анализа данных, который обнаруживает что-то новое в ваших данных. Другой способ - косвенно - его оценки заключается в том, как обнаруженная структура повышает производительность фактического алгоритма ML (например, при разделении данных или удалении выбросов). Тем не менее, эта оценка основана на воспроизведении существующих результатов, что на самом деле не является целью интеллектуального анализа данных ...
источник
Я бы добавил некоторые замечания к тому, что было сказано ...
ИИ - это очень широкий термин для обозначения всего, что связано с машинами, выполняющими действия, подобные рассуждениям или восприятию чувств, начиная от планирования задачи или сотрудничества с другими объектами, до обучения управлению конечностями и ходьбе. Содержательное определение состоит в том, что ИИ - это все, что связано с компьютером, и мы пока не знаем, как это сделать. (Как только мы знаем, как это сделать хорошо, он обычно получает собственное имя и больше не является «ИИ».)
У меня сложилось впечатление, что в отличие от Википедии, распознавание образов и машинное обучение - это одно и то же, но первое практикуется специалистами в области компьютерных наук, а второе - статистиками и инженерами. (Многие технические области открываются снова и снова различными подгруппами, которые часто приводят свой собственный язык и образ мыслей.)
По-моему, Data Mining использует машинное обучение / распознавание образов (методы, которые работают с данными) и включает их в базы данных, инфраструктуру и методы проверки / очистки данных.
источник
К сожалению, разница между этими областями в значительной степени заключается в том, где их преподают: статистика основана на математических курсах, ai, машинном обучении на факультетах информатики и более интеллектуальном анализе данных (используется бизнесом или маркетинговыми отделами, разработанными компаниями-разработчиками программного обеспечения). ,
Во-первых, ИИ (хотя это может означать любую интеллектуальную систему) традиционно подразумевал логические подходы (например, экспертные системы), а не статистическую оценку. Статистика, основанная на математических курсах, обладает очень хорошим теоретическим пониманием, вместе с большим прикладным опытом в экспериментальных науках, где существует четкая научная модель, и статистика необходима для того, чтобы иметь дело с ограниченными экспериментальными данными. В центре внимания часто было получение максимальной информации из очень маленьких наборов данных. кроме того, существует склонность к математическим доказательствам: вы не будете опубликованы, если не сможете доказать что-то о своем подходе. Это, как правило, означает, что статистика отстает в использовании компьютеров для автоматизации анализа. Очередной раз, Недостаток знаний в области программирования не позволяет статистикам работать над крупномасштабными проблемами, где вычислительные проблемы становятся важными (рассмотрим графические процессоры и распределенные системы, такие как hadoop). Я считаю, что такие области, как биоинформатика, в настоящее время в большей степени продвигают статистику в этом направлении. Наконец, я бы сказал, что статистики - это более скептически настроенная группа: они не утверждают, что вы открываете знания с помощью статистики, - скорее ученый выдвигает гипотезу, и задача статистика состоит в том, чтобы проверить, подтверждают ли гипотезу данные. Машинному обучению преподают в отделах CS, которые, к сожалению, не преподают соответствующую математику: исчисление многовариантности, вероятности, статистика и оптимизация не являются обычным явлением ... у кого-то есть смутные "гламурные" концепции, такие как обучение на примерах ...Элементы статистического обучения стр. 30, Это, как правило, означает, что теоретического понимания и развития алгоритмов очень мало, поскольку исследователи всегда могут найти какой-либо набор данных, в котором их алгоритм окажется лучше. Таким образом, есть огромные фазы ажиотажа, когда исследователи ML преследуют следующую большую вещь: нейронные сети, глубокое обучение и т. Д. К сожалению, в отделах CS гораздо больше денег (например, Google, Microsoft, вместе с более «рыночным» обучением), поэтому более скептические статистики игнорируются. Наконец, есть эмпирическая склонность: в основном, существует базовое убеждение, что если вы бросите достаточно данных в алгоритм, он «выучит» правильные предсказания. Хотя я склонен к ML, в ML есть фундаментальное понимание, которое статистики игнорируют: компьютеры могут революционизировать применение статистики.
Есть два способа: а) автоматизировать применение стандартных тестов и моделей. Например, запуск ряда моделей (линейная регрессия, случайные леса и т. Д., Пробование различных комбинаций входов, настройки параметров и т. Д.). На самом деле этого не произошло, хотя я подозреваю, что конкуренты на kaggle разрабатывают свои собственные методы автоматизации. б) применение стандартных статистических моделей к огромным данным: подумайте, например, о гугл-переводчике, рекомендательных системах и т. д. (никто не утверждает, что, например, люди переводят или рекомендуют подобным образом ... но это полезный инструмент). Базовые статистические модели просты, но при применении этих методов к миллиардам точек данных возникают огромные вычислительные проблемы.
Интеллектуальный анализ данных является кульминацией этой философии ... разработка автоматизированных способов извлечения знаний из данных. Тем не менее, он имеет более практический подход: по существу он применяется к поведенческим данным, где нет всеобъемлющей научной теории (маркетинг, обнаружение мошенничества, спам и т. Д.), И цель состоит в том, чтобы автоматизировать анализ больших объемов данных: без сомнения, a Команда статистиков могла бы производить более качественные анализы при достаточном времени, но использование компьютера более экономически эффективно. Кроме того, как объясняет Д. Хэнд, это анализ вторичных данных - данных, которые в любом случае регистрируются, а не данных, которые были явно собраны, чтобы ответить на научный вопрос в твердом экспериментальном плане. Статистика сбора данных и многое другое, D Hand
Итак, я хотел бы резюмировать, что традиционный ИИ основан на логике, а не статистике, машинное обучение - это статистика без теории, а статистика - это «статистика без компьютеров», а анализ данных - это разработка автоматизированных инструментов для статистического анализа с минимальным вмешательством пользователя.
источник
Интеллектуальный анализ данных - это обнаружение скрытых закономерностей или неизвестных знаний, которые могут быть использованы людьми для принятия решений.
Машинное обучение - это изучение модели для классификации новых объектов.
источник
По моему мнению, искусственный интеллект можно рассматривать как «расширенный набор» таких областей, как машинное обучение, интеллектуальный анализ данных, распознавание образов и т. Д.
Статистика - это область математики, которая включает в себя все математические модели, методы и теоремы, которые используются в ИИ.
Машинное обучение - это область искусственного интеллекта, которая включает в себя все алгоритмы, которые применяют вышеупомянутые статистические модели и имеет смысл данных, то есть прогнозной аналитики, такой как кластеризация и классификация.
Data Mining - это наука, которая использует все вышеописанные методы (в основном машинное обучение) для извлечения полезных и важных шаблонов из данных. Сбор данных обычно связан с извлечением полезной информации из массивных наборов данных, то есть больших данных.
источник
Как насчет: учить машины учиться
Распознавать значимые шаблоны в данных: интеллектуальный анализ данных
Прогнозировать результат от известных моделей: ML
Найти новые функции для переназначения необработанных данных: AI
Этот мозг птицы действительно нуждается в простых определениях.
источник
Часто интеллектуальный анализ данных пытается «предсказать» некоторые будущие данные или «объяснить», почему что-то происходит.
Статистика больше используется для проверки гипотезы в моих глазах. Но это субъективное обсуждение.
Одно очевидное различие между статистиками и анализаторами данных можно найти в типе сводной статистики, которую они рассматривают.
Статистика часто ограничивает себя R² и точностью, в то время как майнеры данных будут смотреть на AUC, ROC-кривые, кривые подъема и т. Д. И могут также столкнуться с проблемой при использовании кривой точности, связанной с затратами.
Пакеты интеллектуального анализа данных (например, Weka с открытым исходным кодом) имеют встроенные методы выбора входных данных, классификацию вспомогательных векторных машин и т. Д., Хотя их по большей части просто нет в статистических пакетах, таких как JMP. Недавно я читал курс по «извлечению данных в jmp» от людей из jmp, и хотя это визуально сильный пакет, некоторые важные методы добычи данных до / после / в середине просто отсутствуют. Выбор входных данных был сделан вручную, чтобы получить представление о данных, которые все еще находятся в интеллектуальном анализе данных, это просто ваше намерение, умно выпускать алгоритмы для больших данных и автоматически видеть, что получится. Курс, очевидно, преподавали специалисты по статистике, что подчеркивало различие мышления между ними.
источник