Предыстория: моя докторская степень была в области вычислительной науки. Моя диссертация была посвящена анализу данных дифракции рентгеновских лучей и анализу термически возмущенных ядер в общем динамическом анализе молекулярной электронной плотности для физики твердого тела. Еда на вынос? Это было очень основано на науке.
На мой взгляд, вычислительная наука - это стремление к науке, «... систематическое предприятие, которое строит и организует знания в форме проверяемых объяснений и предсказаний о вселенной» ( вики ) с помощью вычислительных средств.
Однако большинство позиций «Науки о данных» больше похожи на рабочие места типа «анализ данных». Это тяжелые запросы SQL, использующие предварительно построенные модели R и Python (линейная регрессия и т. Д.), Чтобы сделать выводы из структурированных и неструктурированных данных.
Является ли вычислительная наука надмножеством науки о данных? Они взаимозаменяемы? Является ли Data Science настоящей «наукой»? Является ли вычислительная наука настоящей «наукой»?
источник
Ответы:
Они не являются взаимозаменяемыми.
Вычислительная наука имеет тенденцию больше ссылаться на высокопроизводительные вычисления, методы моделирования (дифференциальные уравнения, молекулярная динамика и т. Д.) И обычно называется научными вычислениями.
Наука о данных имеет тенденцию относиться к вычислительно-интенсивному анализу данных, таким как «большие данные», биоинформатика, машинное обучение (оптимизация), байесовский анализ с использованием MCMC и т. Д. Я думаю, что это то же самое, что раньше называлось вычислительной статистикой. Это был вливание информатики в статистику, но многие из разработанных методов отбросили строгие фишерские «статистические тесты» (кластеризация, методы перекрестной проверки, визуализация данных), но сохранили часть данных.
Самое ясное объяснение этому пришло ко мне, когда я преподавал на семинаре Джулии по науке о данных и научным вычислениям. Ученые, работающие с данными, хотели изучить Юлию, чтобы провести быстрый анализ «больших данных», то есть регрессий и других GLM на больших данных. Ученые в области вычислительной техники (научные вычислительные машины?) Хотели знать, как легко написать код для решения больших линейных систем на высокопроизводительных и графических процессорах.
Обратите внимание, что это два способа сказать одни и те же вычисления, но с совершенно разными значениями. Таким образом, в некотором смысле они похожи, но все же различны (и между дисциплинами существует перекрестный переход, такой как использование машинного обучения для изучения параметров PDE из данных).
источник