В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?

208

В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?

Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что бы это было?

Подобные вопросы были заданы ранее, но я до сих пор не понимаю:

Оливье Лалонд
источник

Ответы:

109

Между ними существует значительное совпадение, но некоторые различия могут быть сделаны. По необходимости, мне придется чрезмерно упростить некоторые вещи или дать краткую оценку другим, но я сделаю все возможное, чтобы дать некоторое представление об этих областях.

Во-первых, искусственный интеллект довольно сильно отличается от остальных. ИИ - это изучение того, как создавать интеллектуальных агентов. На практике это то, как запрограммировать компьютер так, чтобы он вел себя и выполнял задачу, как интеллектуальный агент (скажем, человек). Это вовсе не должно включать обучение или индукцию, это может быть просто способ «построить лучшую мышеловку». Например, приложения AI включают программы для мониторинга и контроля текущих процессов (например, увеличение аспекта A, если оно кажется слишком низким). Обратите внимание, что ИИ может включать в себя все, что делает машина, до тех пор, пока она не делает это «глупо».

Однако на практике большинство задач, требующих интеллекта, требуют способности извлекать новые знания из опыта. Таким образом, большая область в ИИ - машинное обучение . Говорят, что компьютерная программа изучает некоторую задачу из опыта, если ее производительность при выполнении этой задачи улучшается с опытом, в соответствии с некоторым показателем производительности. Машинное обучение включает в себя изучение алгоритмов, которые могут извлекать информацию автоматически (т. Е. Без участия человека в режиме онлайн). Это, безусловно, тот случай, когда некоторые из этих процедур включают идеи, полученные непосредственно из классической статистики или вдохновленные ими, но они не имеютбыть. Как и в случае с ИИ, машинное обучение очень широкое и может включать в себя практически все, если в нем есть индуктивный компонент. Примером алгоритма машинного обучения может служить фильтр Калмана.

Интеллектуальный анализ данных - это область, которая в значительной степени черпала вдохновение и учила у машинного обучения (а некоторые также из статистики), но ставит перед собой разные цели . Интеллектуальный анализ данных выполняется человеком в конкретной ситуации с определенным набором данных с учетом поставленной цели. Как правило, этот человек хочет использовать возможности различных методов распознавания образов, которые были разработаны в машинном обучении. Довольно часто набор данных является массивным , сложным и / или может иметь особые проблемы(например, есть больше переменных, чем наблюдений). Обычно цель состоит в том, чтобы либо обнаружить / сформировать некоторые предварительные сведения в области, где действительно было мало знаний заранее, либо уметь точно прогнозировать будущие наблюдения. Более того, процедуры извлечения данных могут быть либо «без присмотра» (мы не знаем ответ - обнаружение), либо «под надзором» (мы знаем ответ - прогноз). Обратите внимание, что цель, как правило, не состоит в том, чтобы выработать более глубокое понимание процесса генерации данных. Общие методы добычи данных включают кластерный анализ, деревья классификации и регрессии и нейронные сети.

Я полагаю, мне не нужно много говорить, чтобы объяснить, что статистика на этом сайте, но, возможно, я могу сказать несколько вещей. Классическая статистика (здесь я имею в виду как частых, так и байесовских) является подтемой в математике. Я думаю, что это в значительной степени пересечение того, что мы знаем о вероятности и того, что мы знаем об оптимизации. Хотя математическую статистику можно изучать просто как платоновский объект исследования, ее в основном понимают как более практичную и прикладную по своему характеру, чем другие, более разреженные области математики. Как таковой (и особенно в отличие от интеллектуального анализа данных выше), он в основном используется для лучшего понимания какого-то конкретного процесса генерации данных. Таким образом, обычно начинается с формально указанной моделии из этого получены производные процедуры для точного извлечения этой модели из зашумленных случаев (т. е. оценки - путем оптимизации некоторой функции потерь) и для возможности отличить ее от других возможностей (т. е. выводов, основанных на известных свойствах распределений выборки). Прототипом статистической техники является регрессия.

gung
источник
1
Я согласен с большей частью поста, но я бы сказал, что AI большую часть времени не пытается создавать интеллектуальных агентов (что такое интеллект, в любом случае?), Но рациональных агентов. Под рациональным подразумевается «оптимальный с учетом имеющихся знаний о мире». Хотя по общему признанию конечная цель - что-то вроде общего решения проблем.
kutschkem
3
извините, я все еще не понимаю разницу между интеллектуальным анализом данных и машинным обучением. из того, что я вижу, интеллектуальный анализ данных = обучение без присмотра машинного обучения. не машинное обучение без присмотра о открытии новых идей?
DTC
Анонимный пользователь предложил этот блог для таблицы, в которой разбиты различия между интеллектуальным анализом данных и машинным обучением на основе параметров.
gung
1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Можно ли с уверенностью сказать, что нейронная сеть является примером инструмента машинного обучения, используемого в интеллектуальном анализе данных, по сравнению с кластерным анализом, который представляет собой алгоритм, не предназначенный для машинного обучения, используемого для интеллектуального анализа данных?
t0mgs
На самом деле все довольно размыто, @ TomGranot-Scalosub. Я бы сказал, что нейронные сети определенно являются ML, и, конечно, кластерный анализ и CART изучаются исследователями ML. Я пытаюсь сделать идеи несколько яснее и отчетливее, но между этими категориями нет четкой грани.
gung
41

Во многих других ответах были затронуты основные моменты, но вы просили иерархию, если таковая существует, и то, как я ее вижу, хотя каждая из них является отдельной дисциплиной, существует иерархия, о которой, кажется, никто еще не упомянул, поскольку каждая основывается на предыдущий.

Статистика - это просто цифры и количественная оценка данных. Существует множество инструментов для поиска релевантных свойств данных, но это довольно близко к чистой математике.

Data Mining - это использование статистики, а также других методов программирования для поиска шаблонов, скрытых в данных, чтобы вы могли объяснить некоторые явления. Data Mining строит интуицию о том, что в действительности происходит с некоторыми данными, и все еще немного больше относится к математике, чем к программированию, но использует и то, и другое.

Машинное обучение использует методы интеллектуального анализа данных и другие алгоритмы обучения для построения моделей того, что происходит за некоторыми данными, чтобы они могли прогнозировать будущие результаты. Математика является основой для многих алгоритмов, но это больше для программирования.

Искусственный интеллект использует модели, созданные Машинным обучением, и другие способы рассуждать об окружающем мире и порождать интеллектуальное поведение, независимо от того, играет ли он в игру или управляет роботом / автомобилем. У искусственного интеллекта есть некоторая цель, которую можно достичь, предсказывая, как действия повлияют на модель мира, и выбирает действия, которые лучше всего достигнут этой цели. Очень основано на программировании.

Короче говоря

  • Статистика количественно оценивает числа
  • Data Mining объясняет закономерности
  • Машинное обучение предсказывает с моделями
  • Искусственный интеллект ведет себя и причины

Теперь, как говорится, будут некоторые проблемы с ИИ, которые относятся только к ИИ и аналогичным образом для других областей, но большинство интересных современных проблем (например, самостоятельное вождение автомобилей) можно легко и правильно назвать всеми этими. Надеюсь, это прояснит отношения между ними, о которых вы спрашивали.

оборота хаккартиста
источник
Вы когда-нибудь использовали WEKA или RapidMiner? Например, EM находится в области интеллектуального анализа данных и применяет модель. Кроме того, проверьте определение, данное Марианой Соферфер, и сравните его с вашим ответом. Пару лет назад я читал «Бишоп» и «Рассел / Норвиг», но насколько я помню, это был деф. к мариане мягче больше подойдет. Кстати, интеллектуальный анализ данных является («только») основным шагом до открытия знаний. интеллектуальный анализ данных выполняется только для данных - и для получения информации - при использовании алгоритма с адекватными параметрами. интеллектуальный анализ данных не может объяснить закономерности.
мнемоника
Нет, @mnemonic, это определение ИИ намного больше согласуется с Расселом и Норвигом, чем с Марианой, что довольно
устарело
2
Я думаю, что описание статистики плохое; Количественные данные - это статистика, которую сообщает национальный департамент статистики, но это не то же самое, что статистическая наука, которая создает модели для данных, оценивает их параметры и делает выводы. Кроме того, связь между интеллектуальным анализом данных и машинным обучением перевернута; наука о данных использует методы машинного обучения, а не наоборот. Смотрите также ответ Кена ван Харена.
Ричард Харди
25
  • Статистика связана с вероятностными моделями, в частности выводом на эти модели с использованием данных.
  • Машинное обучение связано с прогнозированием конкретного результата с учетом некоторых данных. Практически любой разумный метод машинного обучения может быть сформулирован как формальная вероятностная модель, поэтому в этом смысле машинное обучение во многом совпадает со статистикой, но отличается тем, что, как правило, не заботится об оценках параметров (только прогнозирование) и фокусируется на на вычислительную эффективность и большие наборы данных.
  • Data Mining - это (насколько я понимаю) прикладное машинное обучение. В нем больше внимания уделяется практическим аспектам развертывания алгоритмов машинного обучения для больших наборов данных. Это очень похоже на машинное обучение.
  • Искусственный интеллект - это все, что связано с (некоторым произвольным определением) интеллектом в компьютерах. Итак, это включает в себя много вещей.

В целом вероятностные модели (и, следовательно, статистика) оказались наиболее эффективным способом формального структурирования знаний и понимания в машине до такой степени, что все три других (AI, ML и DM) сегодня в основном являются подполями статистика. Не первая дисциплина, ставшая теневым рычагом статистики ... (экономика, психология, биоинформатика и т. Д.)

Кен Ван Харен
источник
5
@Ken - Было бы неверно описывать экономическую психологию или ИИ как теневые ветви статистики - даже если статистика интенсивно используется в каждом из них для анализа многих проблем, интересующих эти области. Вы не хотели бы предполагать, что медицина - это теневая рука статистики, даже если большинство медицинских заключений в значительной степени полагаются на анализ данных.
mpacer
@Ken - Это отличный ответ, но вы могли бы более полно описать, из чего состоит ИИ. Например, исторически сложилось так, что ИИ включал в себя большой объем анализа не вероятностных моделей (например, производственных систем, клеточных автоматов и т. Д., Например, см. Newell & Simon 1972). Конечно, все такие модели являются предельными случаями некоторой вероятностной модели, но они не были проанализированы в таком ключе намного позже.
mpacer
4
интеллектуальный анализ данных выходит за рамки машинного обучения, поскольку на самом деле он включает в себя то, как данные хранятся и индексируются, чтобы сделать алгоритмы намного быстрее. Его можно охарактеризовать как использование методов, в основном из ИИ, ОД и статистики, и их сочетание с эффективными и умными методами управления данными и компоновки данных. Когда это не связано с управлением данными, вы часто можете просто назвать это «машинным обучением». Однако есть некоторые задачи, в частности, «без присмотра», где не требуется «обучение», но также не происходит управление данными, они все еще называются «извлечением данных» (кластеризация, обнаружение выбросов).
Anony-Mousse
21

Можно сказать, что все они связаны, но все они разные вещи. Хотя между ними может быть что-то общее, например, в статистике и интеллектуальном анализе данных вы используете методы кластеризации.
Позвольте мне попытаться кратко определить каждый:

  • Статистика - это очень старая дисциплина, в основном основанная на классических математических методах, которые могут использоваться для той же цели, что и анализ данных, который иногда классифицирует и группирует вещи.

  • Интеллектуальный анализ данных состоит из построения моделей для выявления шаблонов, которые позволяют нам классифицировать или прогнозировать ситуации с учетом количества фактов или факторов.

  • Искусственный интеллект (см. Марвина Мински *) - это дисциплина, которая пытается подражать тому, как мозг работает с методами программирования, например, при создании программы, которая играет в шахматы.

  • Машинное обучение - это задача накопления знаний и их хранения в той или иной форме на компьютере; эта форма может представлять собой математические модели, алгоритмы и т. д. Все, что может помочь в обнаружении закономерностей.

мариана софер
источник
2
Нет, большинство современных ИИ не придерживаются этого раннего подхода «эмулировать мозг». Он сосредоточен на создании «рациональных агентов», которые действуют в среде, чтобы максимизировать полезность, и более тесно связан с машинным обучением. Смотрите книгу Рассела и Норвига.
nealmcb
1
Я не вижу разницы между ML и интеллектуальным анализом данных в вашем определении
Martin Thoma
16

Я больше всего знаком с машинным обучением - осью интеллектуального анализа данных - поэтому я сосредоточусь на этом:

Машинное обучение имеет тенденцию интересоваться умозаключениями в нестандартных ситуациях, например, неидентифицированных данных, активном обучении, полууправляемом обучении, обучении на основе структурированных данных (например, строк или графиков). ML также имеет тенденцию интересоваться теоретическими границами того, что можно изучить, что часто служит основой для используемых алгоритмов (например, машина опорных векторов). ML, как правило, имеет байесовскую природу.

Data mining заинтересован в поиске шаблонов в данных, о которых вы еще не знаете. Я не уверен, что это существенно отличается от аналитического анализа данных в статистике, тогда как в машинном обучении, как правило, существует более четко определенная проблема, которую необходимо решить.

ML, как правило, больше интересуется небольшими наборами данных, где проблема заключается в перенастройке, а интеллектуальный анализ данных имеет тенденцию интересоваться крупномасштабными наборами данных, где проблема связана с количеством данных.

Статистика и машинное обучение предоставляют множество основных инструментов, используемых майнерами данных.

Дикран Сумчатый
источник
Я не согласен с "ML имеет тенденцию больше интересоваться небольшими наборами данных".
Мартин Тома
интеллектуальный анализ данных становится намного сложнее с небольшими наборами данных, поскольку он увеличивает вероятность обнаружения ложной ассоциации (и увеличивает сложность ее обнаружения). С небольшими наборами данных выводы, которые делают как можно меньше вариантов выбора, имеют тенденцию быть намного безопаснее.
Дикран Сумчатый
13

Вот мой взгляд на это. Давайте начнем с двух очень широких категорий:

  • все, что даже притворяется умным, - это искусственный интеллект (включая ML и DM).
  • все, что суммирует данные, является статистикой , хотя вы обычно применяете это только к методам, которые обращают внимание на достоверность результатов (часто используемых в ОД и ОД)

И ML, и DM, как правило, являются ИИ и статистикой, так как они обычно включают в себя основные методы из обоих. Вот некоторые из различий:

  • в машинном обучении у вас есть четко определенная цель (обычно прогноз )
  • в области интеллектуального анализа данных у вас по сути есть цель « что-то, чего я раньше не знал »

Кроме того, интеллектуальный анализ данных обычно включает в себя гораздо больше управления данными , то есть как организовать данные в эффективные структуры индекса и базы данных.

К сожалению, их не так просто разлучить. Например, существует «неконтролируемое обучение», которое часто более тесно связано с СД, чем с ОД, так как оно не может оптимизироваться для достижения цели. С другой стороны, методы DM сложно оценить (как вы оцениваете то, что вы не знаете?) И часто оцениваются по тем же задачам, что и машинное обучение, пропуская некоторую информацию. Это, однако, обычно заставляет их работать хуже, чем методы машинного обучения, которые могут оптимизироваться в соответствии с фактической целью оценки.

Кроме того, они часто используются в комбинациях. Например, метод интеллектуального анализа данных (скажем, кластеризация или обнаружение неконтролируемых выбросов) используется для предварительной обработки данных, а затем метод машинного обучения применяется к предварительно обработанным данным для обучения лучших классификаторов.

Машинное обучение, как правило, гораздо проще оценить: есть такая цель, как оценка или прогноз класса. Вы можете вычислить точность и вспомнить. В области интеллектуального анализа данных большая часть оценки выполняется путем пропуска некоторой информации (например, меток классов) и последующей проверки того, обнаружил ли ваш метод ту же структуру. Это наивно в том смысле, что вы предполагаете, что метки классов полностью кодируют структуру данных; Вы фактически наказываете алгоритм интеллектуального анализа данных, который обнаруживает что-то новое в ваших данных. Другой способ - косвенно - его оценки заключается в том, как обнаруженная структура повышает производительность фактического алгоритма ML (например, при разделении данных или удалении выбросов). Тем не менее, эта оценка основана на воспроизведении существующих результатов, что на самом деле не является целью интеллектуального анализа данных ...

Anony-Mousse
источник
1
Ваш ответ очень проницательный. Я особенно ценю последний абзац о различиях в оценке эффективности ML и оценке эффективности DM.
Юстис
8

Я бы добавил некоторые замечания к тому, что было сказано ...

ИИ - это очень широкий термин для обозначения всего, что связано с машинами, выполняющими действия, подобные рассуждениям или восприятию чувств, начиная от планирования задачи или сотрудничества с другими объектами, до обучения управлению конечностями и ходьбе. Содержательное определение состоит в том, что ИИ - это все, что связано с компьютером, и мы пока не знаем, как это сделать. (Как только мы знаем, как это сделать хорошо, он обычно получает собственное имя и больше не является «ИИ».)

У меня сложилось впечатление, что в отличие от Википедии, распознавание образов и машинное обучение - это одно и то же, но первое практикуется специалистами в области компьютерных наук, а второе - статистиками и инженерами. (Многие технические области открываются снова и снова различными подгруппами, которые часто приводят свой собственный язык и образ мыслей.)

По-моему, Data Mining использует машинное обучение / распознавание образов (методы, которые работают с данными) и включает их в базы данных, инфраструктуру и методы проверки / очистки данных.

Wayne
источник
6
Машинное обучение и распознавание образов - это не одно и то же, машинное обучение также интересует такие вещи, как регрессия, причинный вывод и т. Д. Распознавание образов - это только одна из проблем, интересующих машинное обучение. Большинство знакомых с машинным обучением работают на факультетах информатики.
Дикран Сумчатый
2
@Dikran Согласитесь, но ML и PR часто объединяются и представляются в схожих темах анализа данных. Моя любимая книга - « Распознавание образов и машинное обучение» от Кристофа М. Бишопа. Вот обзор Джона МайнДональда в JSS, j.mp/etg3w1 .
ЧЛ
Я также чувствую, что слово «машинное обучение» встречается гораздо чаще, чем «распознавание образов» в мире CS.
Bayerj
Также почувствуйте, что ML - это скорее термин CS.
Карл Моррисон
3

К сожалению, разница между этими областями в значительной степени заключается в том, где их преподают: статистика основана на математических курсах, ai, машинном обучении на факультетах информатики и более интеллектуальном анализе данных (используется бизнесом или маркетинговыми отделами, разработанными компаниями-разработчиками программного обеспечения). ,

Во-первых, ИИ (хотя это может означать любую интеллектуальную систему) традиционно подразумевал логические подходы (например, экспертные системы), а не статистическую оценку. Статистика, основанная на математических курсах, обладает очень хорошим теоретическим пониманием, вместе с большим прикладным опытом в экспериментальных науках, где существует четкая научная модель, и статистика необходима для того, чтобы иметь дело с ограниченными экспериментальными данными. В центре внимания часто было получение максимальной информации из очень маленьких наборов данных. кроме того, существует склонность к математическим доказательствам: вы не будете опубликованы, если не сможете доказать что-то о своем подходе. Это, как правило, означает, что статистика отстает в использовании компьютеров для автоматизации анализа. Очередной раз, Недостаток знаний в области программирования не позволяет статистикам работать над крупномасштабными проблемами, где вычислительные проблемы становятся важными (рассмотрим графические процессоры и распределенные системы, такие как hadoop). Я считаю, что такие области, как биоинформатика, в настоящее время в большей степени продвигают статистику в этом направлении. Наконец, я бы сказал, что статистики - это более скептически настроенная группа: они не утверждают, что вы открываете знания с помощью статистики, - скорее ученый выдвигает гипотезу, и задача статистика состоит в том, чтобы проверить, подтверждают ли гипотезу данные. Машинному обучению преподают в отделах CS, которые, к сожалению, не преподают соответствующую математику: исчисление многовариантности, вероятности, статистика и оптимизация не являются обычным явлением ... у кого-то есть смутные "гламурные" концепции, такие как обучение на примерах ...Элементы статистического обучения стр. 30, Это, как правило, означает, что теоретического понимания и развития алгоритмов очень мало, поскольку исследователи всегда могут найти какой-либо набор данных, в котором их алгоритм окажется лучше. Таким образом, есть огромные фазы ажиотажа, когда исследователи ML преследуют следующую большую вещь: нейронные сети, глубокое обучение и т. Д. К сожалению, в отделах CS гораздо больше денег (например, Google, Microsoft, вместе с более «рыночным» обучением), поэтому более скептические статистики игнорируются. Наконец, есть эмпирическая склонность: в основном, существует базовое убеждение, что если вы бросите достаточно данных в алгоритм, он «выучит» правильные предсказания. Хотя я склонен к ML, в ML есть фундаментальное понимание, которое статистики игнорируют: компьютеры могут революционизировать применение статистики.

Есть два способа: а) автоматизировать применение стандартных тестов и моделей. Например, запуск ряда моделей (линейная регрессия, случайные леса и т. Д., Пробование различных комбинаций входов, настройки параметров и т. Д.). На самом деле этого не произошло, хотя я подозреваю, что конкуренты на kaggle разрабатывают свои собственные методы автоматизации. б) применение стандартных статистических моделей к огромным данным: подумайте, например, о гугл-переводчике, рекомендательных системах и т. д. (никто не утверждает, что, например, люди переводят или рекомендуют подобным образом ... но это полезный инструмент). Базовые статистические модели просты, но при применении этих методов к миллиардам точек данных возникают огромные вычислительные проблемы.

Интеллектуальный анализ данных является кульминацией этой философии ... разработка автоматизированных способов извлечения знаний из данных. Тем не менее, он имеет более практический подход: по существу он применяется к поведенческим данным, где нет всеобъемлющей научной теории (маркетинг, обнаружение мошенничества, спам и т. Д.), И цель состоит в том, чтобы автоматизировать анализ больших объемов данных: без сомнения, a Команда статистиков могла бы производить более качественные анализы при достаточном времени, но использование компьютера более экономически эффективно. Кроме того, как объясняет Д. Хэнд, это анализ вторичных данных - данных, которые в любом случае регистрируются, а не данных, которые были явно собраны, чтобы ответить на научный вопрос в твердом экспериментальном плане. Статистика сбора данных и многое другое, D Hand

Итак, я хотел бы резюмировать, что традиционный ИИ основан на логике, а не статистике, машинное обучение - это статистика без теории, а статистика - это «статистика без компьютеров», а анализ данных - это разработка автоматизированных инструментов для статистического анализа с минимальным вмешательством пользователя.

оборота seanv507
источник
Этот ответ очень часто звучит, поэтому за ним трудно следовать, и он излишне длинен, но он действительно поражает тот факт, что различия больше связаны с дисциплинарными традициями и акцентами, чем с чем-либо еще.
Tripartio
1

Интеллектуальный анализ данных - это обнаружение скрытых закономерностей или неизвестных знаний, которые могут быть использованы людьми для принятия решений.

Машинное обучение - это изучение модели для классификации новых объектов.

Разан Пол
источник
Машинное обучение только о классификации? Разве машинное обучение не может быть использовано для достижения других целей?
gung
@ Gung Абсолютно нет. Обучение подкреплению, IMHO, является наиболее характерным подразделом ML, и я бы не сказал, что оно основано на классификации, а на достижении целей.
nbro
@nbro, этот комментарий должен был стать подсказкой ОП, чтобы пересмотреть, насколько узко они определяют ОД.
gung
0

По моему мнению, искусственный интеллект можно рассматривать как «расширенный набор» таких областей, как машинное обучение, интеллектуальный анализ данных, распознавание образов и т. Д.

  • Статистика - это область математики, которая включает в себя все математические модели, методы и теоремы, которые используются в ИИ.

  • Машинное обучение - это область искусственного интеллекта, которая включает в себя все алгоритмы, которые применяют вышеупомянутые статистические модели и имеет смысл данных, то есть прогнозной аналитики, такой как кластеризация и классификация.

  • Data Mining - это наука, которая использует все вышеописанные методы (в основном машинное обучение) для извлечения полезных и важных шаблонов из данных. Сбор данных обычно связан с извлечением полезной информации из массивных наборов данных, то есть больших данных.

IrishDog
источник
-1

Как насчет: учить машины учиться

Распознавать значимые шаблоны в данных: интеллектуальный анализ данных

Прогнозировать результат от известных моделей: ML

Найти новые функции для переназначения необработанных данных: AI

Этот мозг птицы действительно нуждается в простых определениях.

Джоэл Малард
источник
-1

Часто интеллектуальный анализ данных пытается «предсказать» некоторые будущие данные или «объяснить», почему что-то происходит.

Статистика больше используется для проверки гипотезы в моих глазах. Но это субъективное обсуждение.

Одно очевидное различие между статистиками и анализаторами данных можно найти в типе сводной статистики, которую они рассматривают.

Статистика часто ограничивает себя R² и точностью, в то время как майнеры данных будут смотреть на AUC, ROC-кривые, кривые подъема и т. Д. И могут также столкнуться с проблемой при использовании кривой точности, связанной с затратами.

Пакеты интеллектуального анализа данных (например, Weka с открытым исходным кодом) имеют встроенные методы выбора входных данных, классификацию вспомогательных векторных машин и т. Д., Хотя их по большей части просто нет в статистических пакетах, таких как JMP. Недавно я читал курс по «извлечению данных в jmp» от людей из jmp, и хотя это визуально сильный пакет, некоторые важные методы добычи данных до / после / в середине просто отсутствуют. Выбор входных данных был сделан вручную, чтобы получить представление о данных, которые все еще находятся в интеллектуальном анализе данных, это просто ваше намерение, умно выпускать алгоритмы для больших данных и автоматически видеть, что получится. Курс, очевидно, преподавали специалисты по статистике, что подчеркивало различие мышления между ними.

Dorien
источник