В чем разница между сбором данных и статистическим анализом?
Для некоторого фона мое статистическое образование было, я думаю, довольно традиционным. Поставлен конкретный вопрос, разработано исследование, собраны и проанализированы данные, чтобы дать некоторое представление об этом вопросе. В результате я всегда скептически относился к тому, что я считал «углублением данных», т. Е. Искал шаблоны в большом наборе данных и использовал эти шаблоны, чтобы сделать выводы. Я склонен связывать последнее с извлечением данных и всегда считал это несколько беспринципным (наряду с такими вещами, как алгоритмические процедуры выбора переменных).
Тем не менее, существует большая и растущая литература по интеллектуальному анализу данных. Часто я вижу этот ярлык, относящийся к конкретным методам, таким как кластеризация, древовидная классификация и т. Д. Тем не менее, по крайней мере, с моей точки зрения, эти методы могут быть «освобождены» для набора данных или использованы структурированным способом для решения проблемы. вопрос. Я бы назвал первый интеллектуальный анализ данных и второй статистический анализ.
Я работаю в академической администрации, и меня попросили провести «интеллектуальный анализ данных» для выявления проблем и возможностей. В соответствии с моим прошлым, мои первые вопросы были такими: что вы хотите узнать, и что, по вашему мнению, способствует возникновению проблемы? Из их ответа стало ясно, что у меня и человека, задающего вопрос, были разные представления о природе и ценности интеллектуального анализа данных.
Ответы:
Джером Фридман некоторое время назад написал статью: « Сбор данных и статистика: какая связь? , который я думаю, вы найдете интересным.
Интеллектуальный анализ данных представлял собой в основном коммерческую проблему и определялся потребностями бизнеса (в сочетании с «потребностью» поставщиков продавать программные и аппаратные системы предприятиям). Одна вещь, которую заметил Фридман, заключалась в том, что все «особенности», которые были раскручены, возникли за пределами статистики - от алгоритмов и методов, таких как нейронные сети, до анализа данных на основе графического интерфейса, - и ни одно из традиционных статистических предложений не казалось частью какой-либо из этих систем. (регрессия, проверка гипотез и т. д.). «Наша основная методология была в значительной степени проигнорирована». Он также был продан как пользователь, ориентированный на то, что вы заметили: вот мои данные, вот мой «деловой вопрос», дайте мне ответ.
Я думаю, что Фридман пытался спровоцировать. Он не думал, что у интеллектуального анализа данных есть серьезные интеллектуальные основания, касающиеся методологии, но что это изменится, и статистики должны играть роль, а не игнорировать ее.
У меня сложилось впечатление, что это более или менее произошло. Линии были размыты. Статистики теперь публикуют в журналах интеллектуального анализа данных. Похоже, что в наши дни майнеры данных проходят некоторую статистическую подготовку. В то время как пакеты интеллектуального анализа данных все еще не распространяют обобщенные линейные модели, логистическая регрессия хорошо известна среди аналитиков - в дополнение к кластеризации и нейронным сетям. Оптимальный экспериментальный дизайн не может быть частью ядра интеллектуального анализа данных, но программное обеспечение можно уговорить выложить p-значения. Прогресс!
источник
Разница между статистикой и интеллектуальным анализом данных в значительной степени историческая, поскольку они пришли из разных традиций: статистики и информатики. Интеллектуальный анализ данных вырос параллельно без работы в области искусственного интеллекта и статистики.
Раздел 1.4 от Witten & Frank резюмирует мою точку зрения, поэтому я собираюсь процитировать ее подробно:
NB1 IMO, интеллектуальный анализ данных и машинное обучение очень тесно связаны между собой. В некотором смысле, методы машинного обучения используются в интеллектуальном анализе данных. Я регулярно вижу эти термины как взаимозаменяемые, и, поскольку они разные, они обычно идут вместе. Я бы посоветовал просмотреть статью «Две культуры», а также другие темы из моего первоначального вопроса.
NB2. Термин «интеллектуальный анализ данных» может иметь отрицательную коннотацию, когда используется в разговорной речи, чтобы означать, что некоторый алгоритм теряет данные без какого-либо концептуального понимания. Смысл в том, что интеллектуальный анализ данных приведет к ложным результатам и переоснащению. Обычно я избегаю использовать этот термин при общении с неспециалистами, а вместо этого использую машинное обучение или статистическое обучение в качестве синонима.
источник
Интеллектуальный анализ данных классифицируется как описательный или прогнозирующий. Описательный интеллектуальный анализ данных заключается в поиске массивных наборов данных и обнаружении местоположений неожиданных структур или взаимосвязей, моделей, тенденций, кластеров и выбросов в данных. С другой стороны, Predictive предназначен для построения моделей и процедур для задач регрессии, классификации, распознавания образов или машинного обучения и оценки точности прогнозирования этих моделей и процедур применительно к свежим данным.
Механизм, используемый для поиска шаблонов или структуры в многомерных данных, может быть ручным или автоматическим; Для поиска может потребоваться интерактивный запрос к системе управления базами данных или использование программного обеспечения для визуализации для выявления аномалий в данных. В терминах машинного обучения описательный интеллектуальный анализ данных известен как обучение без учителя, тогда как интеллектуальный интеллектуальный анализ данных известен как контролируемое обучение.
Большинство методов, используемых в интеллектуальном анализе данных, связаны с методами, разработанными в статистике и машинном обучении. Основными среди этих методов являются общие темы регрессии, классификации, кластеризации и визуализации. Из-за огромных размеров наборов данных многие приложения интеллектуального анализа данных фокусируются на методах уменьшения размерности (например, выбор переменных) и ситуациях, в которых предполагается, что данные большого размера лежат на гиперплоскостях меньшего размера. В последнее время внимание было направлено на методы идентификации многомерных данных, лежащих на нелинейных поверхностях или многообразиях.
Существуют также ситуации при извлечении данных, когда статистический вывод - в его классическом смысле - либо не имеет смысла, либо имеет сомнительную обоснованность: первый возникает, когда у нас есть все население для поиска ответов, а второй - когда набор данных является «Удобная» выборка, а не случайная выборка, взятая из некоторой большой популяции. Когда данные собираются во времени (например, розничные операции, операции на фондовом рынке, записи о пациентах, данные о погоде), выборка также может не иметь смысла; упорядочение по времени наблюдений имеет решающее значение для понимания явления, порождающего данные, и для того, чтобы рассматривать наблюдения как независимые, когда они могут быть сильно коррелированными, будет давать необъективные результаты.
Центральными компонентами интеллектуального анализа данных - помимо статистической теории и методов - вычислительная и вычислительная эффективность, автоматическая обработка данных, методы динамической и интерактивной визуализации данных и разработка алгоритмов.
Одним из наиболее важных вопросов в области интеллектуального анализа данных является вычислительная проблема масштабируемости . Алгоритмы, разработанные для вычисления стандартных исследовательских и подтверждающих статистических методов, были разработаны, чтобы быть быстрыми и вычислительно эффективными при применении к малым и средним наборам данных; тем не менее, было показано, что большинство этих алгоритмов не справляются с задачей обработки огромных наборов данных. По мере роста наборов данных многие существующие алгоритмы демонстрируют тенденцию к резкому замедлению (или даже прекращению работы).
источник
Интеллектуальный анализ данных - это статистика, с небольшими отличиями. Вы можете думать об этом как о статистике ребрендинга, потому что статистика немного странная.
Это часто связано с вычислительной статистикой, то есть только с тем, что вы можете делать с компьютером.
Майнеры данных украли значительную часть многомерной статистики и назвали ее собственной. Проверьте содержание любой многомерной книги 1990-х годов и сравните ее с новой книгой интеллектуального анализа данных. Очень похожий.
Статистика связана с гипотезами тестирования и построением модели, тогда как интеллектуальный анализ данных больше связан с прогнозированием и классификацией, независимо от того, существует ли понятная модель.
источник
Ранее я написал пост, в котором сделал несколько наблюдений, сравнивающих анализ данных с психологией. Я думаю, что эти наблюдения могут охватить некоторые различия, которые вы идентифицируете:
источник
Я не думаю, что различие, которое вы проводите, действительно связано с различием между анализом данных и статистическим анализом. Вы говорите о разнице между исследовательским анализом и подходом моделирования-прогнозирования.
Я думаю, что традиция статистики строится на всех этапах: исследовательский анализ, затем моделирование, затем оценка, затем тестирование, затем прогнозирование / вывод. Статистик проводит предварительный анализ, чтобы выяснить, как выглядят данные (обзор функций в разделе R!). Я полагаю, что анализ данных менее структурирован и может быть идентифицирован с помощью исследовательского анализа. Однако он использует методы из статистики, которые из оценки, прогнозирования, классификации ....
источник