Общий вопрос, как следует из названия:
- В чем разница между DS и OR / оптимизацией.
На концептуальном уровне я понимаю, что DS пытается извлечь знания из имеющихся данных и использует в основном статистические методы машинного обучения. С другой стороны, OR использует данные для принятия решений на основе данных, например, путем оптимизации некоторой целевой функции (критерия) над данными (входными данными).
Интересно, как соотносятся эти две парадигмы?
- Является ли одно подмножество другого?
- Они рассматривают дополнительные поля?
- Есть ли примеры того, что одно поле дополняет другое или они используются в сочетании?
В частности, меня интересует следующее:
Есть ли пример, где OR методы используются для решения научных данных вопрос / проблема?
optimization
data-mining
PsySp
источник
источник
Ответы:
Хотя и исследования операций, и наука данных охватывают большое количество тем и областей, я постараюсь изложить свою точку зрения на то, что я считаю наиболее представительными и основными частями каждой из них.
Как уже отмечали другие, основная часть исследований операций связана главным образом с принятием решений . Хотя существует много разных способов определения того, как принимать решения, большинство основных частей OR (на мой взгляд) сосредоточены на моделировании решений проблем в рамках математического программирования. В подобных средах у вас обычно есть набор переменных решения, ограничения на эти переменные и целевая функция, зависящая от переменных решения, которые вы пытаетесь минимизировать или максимизировать. Когда переменные решения могут принимать значения в , ограничения представляют собой линейные неравенства над переменными решения, а целевая функция является линейной функцией переменных решения, тогда у вас есть линейная программаR - главная рабочая лошадка ИЛИ за последние шестьдесят лет. Если у вас есть другие виды целевых функций или ограничений, вы попадаете в область целочисленного программирования , квадратичного программирования , полуопределенного программирования и т. Д.
Data Science, с другой стороны, в основном занимается выводом, Здесь вы, как правило, начинаете с большой стопки данных, и вы хотели бы сделать вывод о данных, которых вы еще не видели в своей большой стопке. Типичные вещи, которые вы видите здесь: 1) большая куча данных представляет прошлые результаты двух разных вариантов, и вы хотели бы знать, какой вариант даст лучшие результаты, 2) большая куча данных представляет время серии, и вы хотели бы знать, как этот временной ряд будет распространяться в будущем, 3) большая куча данных представляет собой помеченный набор наблюдений, и вы хотите сделать выводы для новых, немаркированных наблюдений. Первые два примера относятся непосредственно к классическим статистическим областям (проверка гипотез и прогнозирование временных рядов соответственно), в то время как третий пример, я думаю, более тесно связан с современными темами машинного обучения (классификация).
Поэтому, на мой взгляд, исследование операций и наука о данных - это в основном ортогональные дисциплины, хотя есть некоторые совпадения. В частности, я думаю, что прогнозирование временных рядов появляется в нетривиальной степени в OR; это одна из наиболее значительных нематематических программных частей OR. Исследование операций - это то, куда вы обращаетесь, если у вас есть известная связь между входами и выходами; Data Science - это то место, куда вы обращаетесь, если пытаетесь определить эту взаимосвязь (для некоторого определения входных и выходных данных).
источник
Это не полный ответ, так как mhum довольно хорошо противопоставляет различные цели OR против DS.
Скорее, я хочу ответить на ваш комментарий:
Ответ - да. Самым ярким примером, который приходит на ум, являются машины опорных векторов (SVM) .
Чтобы «подогнать» модель SVM к некоторым данным (что необходимо сделать, прежде чем вы сможете использовать ее для вывода прогнозов), необходимо решить следующую задачу оптимизации:
Это ограниченная задача оптимизации, как и многие в области ИЛИ, и она решается с помощью методов квадратичного программирования или методов внутренней точки. Они обычно связаны с областью OR, а не с DS, но это пример их более широкого применения.
В более общем смысле, оптимизация является ключевой для многих статистических и машинных моделей обучения, используемых в области DS, поскольку процесс обучения этих моделей обычно можно сформулировать как проблему минимизации, включающую функцию потери / сожаления - из скромной многовековой давности модель линейной регрессии до самой последней нейронной сети глубокого обучения.
Хорошей ссылкой на SVM является епископ .
источник
Как стратег, у меня была возможность работать с обеими сторонами дисциплины. В попытке объяснить, что такое OR и DS для качественного руководителя MBA, мое (чрезмерно) упрощенное введение в одну строку для каждого
ИЛИ: экономисты, которые умеют кодировать
DS: статистики, которые умеют кодировать.
С практической точки зрения, как две группы обычно собираются вместе: сторона ИЛИ разрабатывает модель принятия решения, а сторона DS выясняет подходящую реализацию данных для обеспечения модели.
Каждый сам по себе будет опираться на теоретические традиции своих дисциплин - вместе они проводят эксперименты для структурирования данных и уточнения модели, чтобы получить истинную информацию, необходимую для принятия оптимальных решений. Когда каждый знакомится с другим, его мышление и язык обычно сходятся.
источник
Наука данных является широким полемкотороедело с данными в целом. Если это звучит расплывчато это нормальнопотому что этосамом деле. Это было гудение словотечение довольно несколько лет. По сути, он пытается найти способ использовать данные: что я могу сделать с моими данными (какую информацию я могу получить из этого?).
Исследование операций - это наука математической оптимизации: вы моделируете задачу в «уравнения», решаете эту математическую модель и переводите решения обратно в исходную постановку задачи. Это инструмент, помогающий принимать решения: что я должен / могу сделать, чтобы получить то или иное.
Многие проблемы бизнеса можно рассматривать как проблему оптимизации. Учитывая, что я пытаюсь максимизировать свой доход, учитывая нехватку ресурсов, как именно я буду вести свой бизнес, какие значения я должен установить для переменных моего решения. Такие проблемы, как планирование, планирование объектов, управление цепочками поставок ... и т. Д. - все это использует методы оптимизации.
Оптимизация портфеля также является классическим примером использования оптимизации. Предположим, что я могу инвестировать в несколько разных активов в моем портфеле, каждый из которых имеет недетерминированную доходность, как мне сбалансировать свой портфель, чтобы минимизировать риск всего моего портфеля при сохранении уровня денежной доходности. В этой постановке целевая функция часто становится риск / дисперсия портфеля, а также ограничения являются требуемая норма прибыли на инвестиции, а также сумма денег, которую вы имеете.
источник
Если вы считаете, что ML и AI управляются ML как часть Data Science (что некоторые люди делают, а некоторые нет в соответствии с моим опытом, например, профессиональная программа Microsoft по ИИ содержит ключевые аспекты Data Science + Machine learning (как с DL, так и с RL). В то время как Высшая школа экономики представляет практически те же самые продвинутые части Microsoft cuuriculum, что и Advanced Machine Learning, в математике есть много общего, что используется в обеих областях. Например: Нелинейное программирование (множители Лагранжа, условия KKT ...) -> используется для выведения машин опорных векторов ... Эконометрика, которая в основном основана на регрессиях ---> Регрессии являются ключевой частью как Data Scinece в целом, так и более конкретно, контролируемое обучение ... Статистика (обычно находится в учебном плане ИЛИ) ---> ключ для науки о данных и машинного обучения, а также ... Стохастические процессы ---> очень важные в обучении с подкреплением ... Динамическое программирование ---> снова обнаруживаются в обучении с подкреплением ... Итак, я бы сказал, что есть некоторые сходства с наукой о данных в целом и сходства с ML. Конечно, цели этих дисциплин разные, но в математике, которая используется в этих дисциплинах, есть много общего.
источник