В чем разница между вычислительной наукой и наукой о данных? [закрыто]

9

Предыстория: моя докторская степень была в области вычислительной науки. Моя диссертация была посвящена анализу данных дифракции рентгеновских лучей и анализу термически возмущенных ядер в общем динамическом анализе молекулярной электронной плотности для физики твердого тела. Еда на вынос? Это было очень основано на науке.

На мой взгляд, вычислительная наука - это стремление к науке, «... систематическое предприятие, которое строит и организует знания в форме проверяемых объяснений и предсказаний о вселенной» ( вики ) с помощью вычислительных средств.

Однако большинство позиций «Науки о данных» больше похожи на рабочие места типа «анализ данных». Это тяжелые запросы SQL, использующие предварительно построенные модели R и Python (линейная регрессия и т. Д.), Чтобы сделать выводы из структурированных и неструктурированных данных.

Является ли вычислительная наука надмножеством науки о данных? Они взаимозаменяемы? Является ли Data Science настоящей «наукой»? Является ли вычислительная наука настоящей «наукой»?

drjrm3
источник
Я думаю, что вопрос имеет какое-то значение, но вам нужно немного разобраться с ним. Этот проект отчета в CSE может быть полезен. У них есть некоторые упоминания об отношениях между ними. Вы можете подумать об отношениях, аналогичных той, которая существует между экспериментальной и теоретической наукой.
Никогуаро

Ответы:

10

Они не являются взаимозаменяемыми.

  • Вычислительная наука имеет тенденцию больше ссылаться на высокопроизводительные вычисления, методы моделирования (дифференциальные уравнения, молекулярная динамика и т. Д.) И обычно называется научными вычислениями.

  • Наука о данных имеет тенденцию относиться к вычислительно-интенсивному анализу данных, таким как «большие данные», биоинформатика, машинное обучение (оптимизация), байесовский анализ с использованием MCMC и т. Д. Я думаю, что это то же самое, что раньше называлось вычислительной статистикой. Это был вливание информатики в статистику, но многие из разработанных методов отбросили строгие фишерские «статистические тесты» (кластеризация, методы перекрестной проверки, визуализация данных), но сохранили часть данных.

Самое ясное объяснение этому пришло ко мне, когда я преподавал на семинаре Джулии по науке о данных и научным вычислениям. Ученые, работающие с данными, хотели изучить Юлию, чтобы провести быстрый анализ «больших данных», то есть регрессий и других GLM на больших данных. Ученые в области вычислительной техники (научные вычислительные машины?) Хотели знать, как легко написать код для решения больших линейных систем на высокопроизводительных и графических процессорах.

Обратите внимание, что это два способа сказать одни и те же вычисления, но с совершенно разными значениями. Таким образом, в некотором смысле они похожи, но все же различны (и между дисциплинами существует перекрестный переход, такой как использование машинного обучения для изучения параметров PDE из данных).

Крис Ракауцкас
источник