Является ли Data Science таким же, как Data Mining?

22

Я уверен, что наука о данных, как будет обсуждаться на этом форуме, имеет несколько синонимов или, по крайней мере, смежные области, где анализируются большие данные.

Мой конкретный вопрос касается Data Mining. Я взял аспирантуру в Data Mining несколько лет назад. Каковы различия между Data Science и Data Mining и, в частности, на что еще мне нужно обратить внимание, чтобы стать опытным в Data Mining?

demongolem
источник
Что касается второй части вашего вопроса, я предложил обсуждение в meta: meta.datascience.stackexchange.com/questions/5/… То, как это будет получено, может повлиять на то, отвечает ли ваша проблема профессионализма или находится в рамках.
Клейтон,

Ответы:

25

@statsRus начинает закладывать основу для вашего ответа на другой вопрос /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Сбор данных : поиск в интернете и онлайн-опросы
  • Манипулирование данными : перекодирование грязных данных и извлечение значения из данных лингвистических и социальных сетей
  • Масштаб данных : работа с очень большими наборами данных
  • Интеллектуальный анализ данных : поиск шаблонов в больших и сложных наборах данных с акцентом на алгоритмические методы
  • Передача данных : помогает преобразовать «машиночитаемые» данные в «читаемую человеком» информацию посредством визуализации

Определение

можно рассматривать как один элемент (или набор навыков и приложений) в наборе данных ученого. Мне нравится, как он отделяет определение майнинга от сбора в некотором специфическом для торговли жаргоне.

Тем не менее, я думаю, что интеллектуальный анализ данных был бы синонимом сбора данных в разговорном американско-американском определении.

Куда пойти, чтобы стать опытным? Я думаю, что этот вопрос является слишком широким, поскольку он сформулирован в настоящее время, и он получил бы ответы, основанные главным образом на мнениях. Возможно, если бы вы могли уточнить свой вопрос, было бы легче увидеть, что вы спрашиваете.

Clayton
источник
11

То, что разместил @Clayton, кажется мне подходящим для этих терминов и для того, чтобы «добыча данных» была одним из инструментов исследователя данных. Тем не менее, я на самом деле не использовал термин «сбор данных», и он не кажется мне синонимом «интеллектуального анализа данных».

Мой собственный ответ на ваш вопрос: нет , условия не совпадают. Определения в этой области могут быть бесполезными, но я не видел, чтобы эти термины использовались взаимозаменяемо. В моей работе мы иногда используем их, чтобы различать цели или методологии. Для нас о данных больше связана с проверкой гипотезы, и обычно данные собираются именно для этой цели. это больше отсеивание существующих данных, поиск структуры и, возможно, генерация гипотез. Интеллектуальный анализ данных может начинаться с гипотезы, но он часто бывает очень слабым или общим, и его трудно решить с уверенностью. (Копайте достаточно долго, и вы найдете что-нибудь , хотя это может оказаться пиритом.)

Тем не менее, мы также использовали «науку о данных» в качестве более широкого термина, чтобы включить «интеллектуальный анализ данных». Мы также говорим о «моделировании данных», которое для нас заключается в поиске модели для системы интересов, основанной на данных, а также других знаниях и целях. Иногда это означает попытку найти математику, которая объясняет реальную систему, а иногда это означает поиск прогностической модели, которая достаточно хороша для определенной цели.

Джо Фьюжн
источник
8

Мой ответ будет нет. Я считаю Data Mining одной из разных областей науки о данных. Интеллектуальный анализ данных в основном рассматривается как ответ на вопрос, а не на него. Его часто называют «обнаружением чего-то нового» по сравнению с наукой о данных, где ученый пытается решить сложные проблемы, чтобы достичь конечных результатов. Однако оба термина имеют много общего между ними. Например ... если у вас есть сельскохозяйственные угодья, на которых вы стремитесь найти пораженные растения ... Здесь добыча пространственных данных играет ключевую роль в выполнении этой работы. Есть хорошие шансы, что у вас может получиться не только обнаружить пораженные растения в земле, но также и в какой степени они затронуты ....... это то, что невозможно с наукой о данных.

Дивья
источник
Ваш ответ очень хороший, и он был бы также хорош, если бы вы добавили небольшой пример, чтобы подчеркнуть, что вы делаете вывод о том, что интеллектуальный анализ данных больше связан с обнаружением чего-то нового , чем с попыткой решить и достичь результатов .
Рубенс
6

Есть много совпадений между добычей данных и данными. Я бы сказал, что люди с ролью обработки данных занимаются сбором данных и извлечением функций из нефильтрованных, неорганизованных и в основном необработанных / диких наборов данных. Некоторые очень важные данные могут быть сложны для извлечения, но не из-за проблем с реализацией, а из-за наличия иностранных артефактов.

Например. если бы мне нужен был кто-то, чтобы посмотреть на финансовые данные из письменных налоговых деклараций 70-х годов, которые были отсканированы и прочитаны на машине, чтобы узнать, сэкономили ли люди больше на страховании автомобиля; человек, который должен получить данные.

Если бы мне нужен был кто-то, чтобы изучить влияние профиля Nike в Твиттере в твитах Бразилии и определить ключевые положительные черты этого профиля, я бы искал ученого данных.

Васса
источник