Я уверен, что наука о данных, как будет обсуждаться на этом форуме, имеет несколько синонимов или, по крайней мере, смежные области, где анализируются большие данные.
Мой конкретный вопрос касается Data Mining. Я взял аспирантуру в Data Mining несколько лет назад. Каковы различия между Data Science и Data Mining и, в частности, на что еще мне нужно обратить внимание, чтобы стать опытным в Data Mining?
data-mining
definitions
demongolem
источник
источник
Ответы:
@statsRus начинает закладывать основу для вашего ответа на другой вопрос /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :
Определение
интеллектуальный анализ данных можно рассматривать как один элемент (или набор навыков и приложений) в наборе данных ученого. Мне нравится, как он отделяет определение майнинга от сбора в некотором специфическом для торговли жаргоне.
Тем не менее, я думаю, что интеллектуальный анализ данных был бы синонимом сбора данных в разговорном американско-американском определении.
Куда пойти, чтобы стать опытным? Я думаю, что этот вопрос является слишком широким, поскольку он сформулирован в настоящее время, и он получил бы ответы, основанные главным образом на мнениях. Возможно, если бы вы могли уточнить свой вопрос, было бы легче увидеть, что вы спрашиваете.
источник
То, что разместил @Clayton, кажется мне подходящим для этих терминов и для того, чтобы «добыча данных» была одним из инструментов исследователя данных. Тем не менее, я на самом деле не использовал термин «сбор данных», и он не кажется мне синонимом «интеллектуального анализа данных».
Мой собственный ответ на ваш вопрос: нет , условия не совпадают. Определения в этой области могут быть бесполезными, но я не видел, чтобы эти термины использовались взаимозаменяемо. В моей работе мы иногда используем их, чтобы различать цели или методологии. Для нас наука о данных больше связана с проверкой гипотезы, и обычно данные собираются именно для этой цели. интеллектуальный анализ данных - это больше отсеивание существующих данных, поиск структуры и, возможно, генерация гипотез. Интеллектуальный анализ данных может начинаться с гипотезы, но он часто бывает очень слабым или общим, и его трудно решить с уверенностью. (Копайте достаточно долго, и вы найдете что-нибудь , хотя это может оказаться пиритом.)
Тем не менее, мы также использовали «науку о данных» в качестве более широкого термина, чтобы включить «интеллектуальный анализ данных». Мы также говорим о «моделировании данных», которое для нас заключается в поиске модели для системы интересов, основанной на данных, а также других знаниях и целях. Иногда это означает попытку найти математику, которая объясняет реальную систему, а иногда это означает поиск прогностической модели, которая достаточно хороша для определенной цели.
источник
Мой ответ будет нет. Я считаю Data Mining одной из разных областей науки о данных. Интеллектуальный анализ данных в основном рассматривается как ответ на вопрос, а не на него. Его часто называют «обнаружением чего-то нового» по сравнению с наукой о данных, где ученый пытается решить сложные проблемы, чтобы достичь конечных результатов. Однако оба термина имеют много общего между ними. Например ... если у вас есть сельскохозяйственные угодья, на которых вы стремитесь найти пораженные растения ... Здесь добыча пространственных данных играет ключевую роль в выполнении этой работы. Есть хорошие шансы, что у вас может получиться не только обнаружить пораженные растения в земле, но также и в какой степени они затронуты ....... это то, что невозможно с наукой о данных.
источник
Есть много совпадений между добычей данных и данными. Я бы сказал, что люди с ролью обработки данных занимаются сбором данных и извлечением функций из нефильтрованных, неорганизованных и в основном необработанных / диких наборов данных. Некоторые очень важные данные могут быть сложны для извлечения, но не из-за проблем с реализацией, а из-за наличия иностранных артефактов.
Например. если бы мне нужен был кто-то, чтобы посмотреть на финансовые данные из письменных налоговых деклараций 70-х годов, которые были отсканированы и прочитаны на машине, чтобы узнать, сэкономили ли люди больше на страховании автомобиля; человек, который должен получить данные.
Если бы мне нужен был кто-то, чтобы изучить влияние профиля Nike в Твиттере в твитах Бразилии и определить ключевые положительные черты этого профиля, я бы искал ученого данных.
источник