В чем разница между сбором данных и статистическим анализом?

19

В чем разница между сбором данных и статистическим анализом?

Для некоторого фона мое статистическое образование было, я думаю, довольно традиционным. Поставлен конкретный вопрос, разработано исследование, собраны и проанализированы данные, чтобы дать некоторое представление об этом вопросе. В результате я всегда скептически относился к тому, что я считал «углублением данных», т. Е. Искал шаблоны в большом наборе данных и использовал эти шаблоны, чтобы сделать выводы. Я склонен связывать последнее с извлечением данных и всегда считал это несколько беспринципным (наряду с такими вещами, как алгоритмические процедуры выбора переменных).

Тем не менее, существует большая и растущая литература по интеллектуальному анализу данных. Часто я вижу этот ярлык, относящийся к конкретным методам, таким как кластеризация, древовидная классификация и т. Д. Тем не менее, по крайней мере, с моей точки зрения, эти методы могут быть «освобождены» для набора данных или использованы структурированным способом для решения проблемы. вопрос. Я бы назвал первый интеллектуальный анализ данных и второй статистический анализ.

Я работаю в академической администрации, и меня попросили провести «интеллектуальный анализ данных» для выявления проблем и возможностей. В соответствии с моим прошлым, мои первые вопросы были такими: что вы хотите узнать, и что, по вашему мнению, способствует возникновению проблемы? Из их ответа стало ясно, что у меня и человека, задающего вопрос, были разные представления о природе и ценности интеллектуального анализа данных.

Brett
источник
1
дублировать? stats.stackexchange.com/questions/6/…
Нил Макгиган
3
Если он дублируется, я могу предположить, что интеллектуальный анализ данных и машинное обучение - это одно и то же!
Джордж Донтас
@ Джордж Донтас Да, я пришел сюда по ссылке в комментариях, если другой вопрос в надежде увидеть разницу между ML и интеллектуальным анализом данных.
DJG

Ответы:

20

Джером Фридман некоторое время назад написал статью: « Сбор данных и статистика: какая связь? , который я думаю, вы найдете интересным.

Интеллектуальный анализ данных представлял собой в основном коммерческую проблему и определялся потребностями бизнеса (в сочетании с «потребностью» поставщиков продавать программные и аппаратные системы предприятиям). Одна вещь, которую заметил Фридман, заключалась в том, что все «особенности», которые были раскручены, возникли за пределами статистики - от алгоритмов и методов, таких как нейронные сети, до анализа данных на основе графического интерфейса, - и ни одно из традиционных статистических предложений не казалось частью какой-либо из этих систем. (регрессия, проверка гипотез и т. д.). «Наша основная методология была в значительной степени проигнорирована». Он также был продан как пользователь, ориентированный на то, что вы заметили: вот мои данные, вот мой «деловой вопрос», дайте мне ответ.

Я думаю, что Фридман пытался спровоцировать. Он не думал, что у интеллектуального анализа данных есть серьезные интеллектуальные основания, касающиеся методологии, но что это изменится, и статистики должны играть роль, а не игнорировать ее.

У меня сложилось впечатление, что это более или менее произошло. Линии были размыты. Статистики теперь публикуют в журналах интеллектуального анализа данных. Похоже, что в наши дни майнеры данных проходят некоторую статистическую подготовку. В то время как пакеты интеллектуального анализа данных все еще не распространяют обобщенные линейные модели, логистическая регрессия хорошо известна среди аналитиков - в дополнение к кластеризации и нейронным сетям. Оптимальный экспериментальный дизайн не может быть частью ядра интеллектуального анализа данных, но программное обеспечение можно уговорить выложить p-значения. Прогресс!

АРС
источник
1
Это отличная статья, которая соответствует моей точке зрения на то, что такое интеллектуальный анализ данных и чем он отличается от статистики. Подвох, это с 1997 года! Обратите внимание на обвинительный акт бумаги или вашу рекомендацию, но степень, в которой я не отставал от интеллектуального анализа данных. Похоже, мне нужно взять текущую книгу по интеллектуальному анализу данных, чтобы наверстать упущенное.
Бретт
Хех, я держал дату нарочно, потому что я думал, что было бы забавно заметить промежуток времени. :) Книги Майкла Берри и Гордона Линоффа довольно хороши и понравятся статистикам (для более широкого ознакомления, а не для изучения статистических методов). Если вы хотите почувствовать нечеткую, «корпоративную» сторону этого поля, вам может помочь просмотр одной из книг по продукту поставщика, например, SAS Enterprise Miner или SPSS Clementine. Я не рекомендовал бы покупать их, если вы не собираетесь работать с самим продуктом.
АРС
10

Разница между статистикой и интеллектуальным анализом данных в значительной степени историческая, поскольку они пришли из разных традиций: статистики и информатики. Интеллектуальный анализ данных вырос параллельно без работы в области искусственного интеллекта и статистики.

Раздел 1.4 от Witten & Frank резюмирует мою точку зрения, поэтому я собираюсь процитировать ее подробно:

В чем разница между машинным обучением и статистикой? Циники, искривленные взором коммерческого интереса (и ажиотажа) в этой области, приравнивают интеллектуальный анализ данных к статистике плюс маркетинг. По правде говоря, вам не следует искать разделительную линию между машинным обучением и статистикой, потому что существует континуум - и многомерный - методов анализа данных. Некоторые основаны на навыках, которые преподаются на стандартных курсах статистики, а другие более тесно связаны с видом машинного обучения, возникшим в результате информатики. Исторически у обеих сторон были довольно разные традиции. Если вы вынуждены указать на одну разницу в акцентах, возможно, статистика была больше связана с проверкой гипотез,

В прошлом очень похожие методы развивались параллельно в машинном обучении и статистике ...

Но теперь две перспективы сошлись.

NB1 IMO, интеллектуальный анализ данных и машинное обучение очень тесно связаны между собой. В некотором смысле, методы машинного обучения используются в интеллектуальном анализе данных. Я регулярно вижу эти термины как взаимозаменяемые, и, поскольку они разные, они обычно идут вместе. Я бы посоветовал просмотреть статью «Две культуры», а также другие темы из моего первоначального вопроса.

NB2. Термин «интеллектуальный анализ данных» может иметь отрицательную коннотацию, когда используется в разговорной речи, чтобы означать, что некоторый алгоритм теряет данные без какого-либо концептуального понимания. Смысл в том, что интеллектуальный анализ данных приведет к ложным результатам и переоснащению. Обычно я избегаю использовать этот термин при общении с неспециалистами, а вместо этого использую машинное обучение или статистическое обучение в качестве синонима.

Шейн
источник
Насчет NB2 - я думаю, что вы абсолютно правы в отношении значения интеллектуального анализа данных, и я не имел связи с машинным обучением. В моих тренировках всегда подчеркивались проблемы переоснащения, лживости и извлечения выгоды из случайности, и поэтому я скептически относился к СД - и продолжаю, возможно, до тех пор, пока кто-то на самом деле не скажет мне, ЧТО они делают и КАК. Благодарю.
Бретт
1
Единственное, что я могу сказать о различии ML / DM, это то, что я думаю, что DM шире. Например, OLAP и связанные инструменты включают технологии майнинга. Но они исходят из базы данных компьютерной науки, а не машинного обучения. Трудно игнорировать роль коммерции в формировании «смысла» интеллектуального анализа данных - при необходимости в нее включаются элементы наук управления, исследования операций, машинного обучения и статистики. Это также создает впечатление чего-то хрупкого, но обычно это проблема для пуристов, а не практикующих.
АРС
@ars: я согласен. Я пытался сказать это немного, говоря, что «методы машинного обучения используются в интеллектуальном анализе данных» (т. Е. Интеллектуальный анализ данных - это супернабор). Ваша точка зрения о коммерческих приложениях также на месте. Хотя кто-то в современном коммерческом приложении может называть свою работу чем-то другим (например, «наукой о данных»).
Шейн
Правильно, я должен был сказать, что пытался уточнить разногласия, а не просто придираться к тому, что вы написали. Извиняюсь за неправильное направление. Хороший момент для изменения времени и терминов, таких как принятие "науки о данных". Разве одна из книг Гельмана не начинается с чего-то вроде «статистика - это наука о данных»? Так что «они» воруют у статистиков. Опять таки. :)
АРС
8

Интеллектуальный анализ данных классифицируется как описательный или прогнозирующий. Описательный интеллектуальный анализ данных заключается в поиске массивных наборов данных и обнаружении местоположений неожиданных структур или взаимосвязей, моделей, тенденций, кластеров и выбросов в данных. С другой стороны, Predictive предназначен для построения моделей и процедур для задач регрессии, классификации, распознавания образов или машинного обучения и оценки точности прогнозирования этих моделей и процедур применительно к свежим данным.

Механизм, используемый для поиска шаблонов или структуры в многомерных данных, может быть ручным или автоматическим; Для поиска может потребоваться интерактивный запрос к системе управления базами данных или использование программного обеспечения для визуализации для выявления аномалий в данных. В терминах машинного обучения описательный интеллектуальный анализ данных известен как обучение без учителя, тогда как интеллектуальный интеллектуальный анализ данных известен как контролируемое обучение.

Большинство методов, используемых в интеллектуальном анализе данных, связаны с методами, разработанными в статистике и машинном обучении. Основными среди этих методов являются общие темы регрессии, классификации, кластеризации и визуализации. Из-за огромных размеров наборов данных многие приложения интеллектуального анализа данных фокусируются на методах уменьшения размерности (например, выбор переменных) и ситуациях, в которых предполагается, что данные большого размера лежат на гиперплоскостях меньшего размера. В последнее время внимание было направлено на методы идентификации многомерных данных, лежащих на нелинейных поверхностях или многообразиях.

Существуют также ситуации при извлечении данных, когда статистический вывод - в его классическом смысле - либо не имеет смысла, либо имеет сомнительную обоснованность: первый возникает, когда у нас есть все население для поиска ответов, а второй - когда набор данных является «Удобная» выборка, а не случайная выборка, взятая из некоторой большой популяции. Когда данные собираются во времени (например, розничные операции, операции на фондовом рынке, записи о пациентах, данные о погоде), выборка также может не иметь смысла; упорядочение по времени наблюдений имеет решающее значение для понимания явления, порождающего данные, и для того, чтобы рассматривать наблюдения как независимые, когда они могут быть сильно коррелированными, будет давать необъективные результаты.

Центральными компонентами интеллектуального анализа данных - помимо статистической теории и методов - вычислительная и вычислительная эффективность, автоматическая обработка данных, методы динамической и интерактивной визуализации данных и разработка алгоритмов.

Одним из наиболее важных вопросов в области интеллектуального анализа данных является вычислительная проблема масштабируемости . Алгоритмы, разработанные для вычисления стандартных исследовательских и подтверждающих статистических методов, были разработаны, чтобы быть быстрыми и вычислительно эффективными при применении к малым и средним наборам данных; тем не менее, было показано, что большинство этих алгоритмов не справляются с задачей обработки огромных наборов данных. По мере роста наборов данных многие существующие алгоритмы демонстрируют тенденцию к резкому замедлению (или даже прекращению работы).

Джордж Донтас
источник
8

Интеллектуальный анализ данных - это статистика, с небольшими отличиями. Вы можете думать об этом как о статистике ребрендинга, потому что статистика немного странная.

Это часто связано с вычислительной статистикой, то есть только с тем, что вы можете делать с компьютером.

Майнеры данных украли значительную часть многомерной статистики и назвали ее собственной. Проверьте содержание любой многомерной книги 1990-х годов и сравните ее с новой книгой интеллектуального анализа данных. Очень похожий.

Статистика связана с гипотезами тестирования и построением модели, тогда как интеллектуальный анализ данных больше связан с прогнозированием и классификацией, независимо от того, существует ли понятная модель.

Нил Макгиган
источник
1
Что такое дубликат? Я не вижу ничего очевидного.
Роб Хиндман
1
Очень похоже на это, я подумал: stats.stackexchange.com/questions/6/…
Нил Макгиган
1
Ok. Я искал данные, а не машинное обучение. Пожалуйста, проголосуйте, чтобы закрыть, если вы думаете, что это дубликат.
Роб Хиндман
Хм, так Data Mining == Машинное обучение?
АРС
1
1) Я не вижу различия в comp stat. Статистики мало что делают, для чего не нужен компьютер. Я полагаю, вы имеете в виду вычислительно интенсивные процедуры, такие как итерационные решения и т. Д.? Но тогда, это также распространено в современной статистической работе, которая не является интеллектуальным анализом данных. 2) В моей собственной работе (статистика) меня интересовало построение моделей для объяснения и прогнозирования, в зависимости от проблемы - я бы не стал рассматривать этот анализ данных. 3) Я остаюсь с выводом, что современная DM - это конкретное приложение статистики, что я считаю хорошим выводом.
Бретт
6

Ранее я написал пост, в котором сделал несколько наблюдений, сравнивающих анализ данных с психологией. Я думаю, что эти наблюдения могут охватить некоторые различия, которые вы идентифицируете:

  1. «Добыча данных, похоже, больше связана с прогнозированием с использованием наблюдаемых переменных, чем с пониманием причинной системы скрытых переменных; психология обычно больше касается причинной системы скрытых переменных».
  2. Интеллектуальный анализ данных обычно включает в себя массивные наборы данных (например, более 10 000 строк), которые собираются для другой цели, нежели цели интеллектуального анализа данных. Психологические наборы данных, как правило, небольшие (например, менее 1000 или 100 строк) и собираются явно для изучения вопроса исследования.
  3. Психологический анализ обычно включает в себя тестирование конкретных моделей. Подходы к разработке автоматизированных моделей теоретически не являются интересными. "- Data Mining and R
Джером англим
источник
Я думаю, что пункты 2 и 3 являются полезными комментариями и согласуются с тем, что я вижу как различие между двумя SA и DM. Я не уверен в твоем первом замечании. Я провел статистическую работу, где мне было интересно улучшить понимание причинно-следственных связей. Тем не менее, я также выполнил статистическую работу, где задача заключалась в том, чтобы взять известные отношения и разработать модели с единственной целью прогнозирования, но которые разделяли другие функции «интеллектуального анализа данных».
Бретт
4

Я не думаю, что различие, которое вы проводите, действительно связано с различием между анализом данных и статистическим анализом. Вы говорите о разнице между исследовательским анализом и подходом моделирования-прогнозирования.

Я думаю, что традиция статистики строится на всех этапах: исследовательский анализ, затем моделирование, затем оценка, затем тестирование, затем прогнозирование / вывод. Статистик проводит предварительный анализ, чтобы выяснить, как выглядят данные (обзор функций в разделе R!). Я полагаю, что анализ данных менее структурирован и может быть идентифицирован с помощью исследовательского анализа. Однако он использует методы из статистики, которые из оценки, прогнозирования, классификации ....

Робин Жирар
источник
Я могу купить это. Интеллектуальный анализ данных является более исследовательским применением статистических методов. Хотя я не думаю, что этого достаточно. Когда я делаю EDA на моем наборе из 100 наблюдений из запланированного эксперимента, я не думаю, что кто-то назовет этот анализ данных, не так ли?
Бретт