Недавно окончив аспирантуру по статистике, я в последние пару месяцев начал искать работу в области статистики. Практически в каждой компании, которую я рассматривал, была опубликована вакансия с названием « Data Scientist ». На самом деле, казалось, что давно прошли дни, когда можно было видеть звания ученого- статистика или статистика . Действительно ли то, что я был специалистом по данным, заменило то, что было статистиком, или названия, которые меня интересовали, были синонимами?
Ну, большинство квалификаций для рабочих мест чувствовали себя как вещи, которые будут квалифицироваться под названием статистика. Для большинства работ требовалась степень доктора наук в области статистики ( ), больше всего требовалось понимание дизайна эксперимента ( ), линейной регрессии и anova ( checkmark ), обобщенных линейных моделей ( ) и других многомерных методов, таких как PCA ( ). а также знания в статистической вычислительной среде, такой как R или SAS ( ). Похоже, ученый данных на самом деле просто кодовое имя для статистики.✓ ✓ ✓ ✓ ✓
Однако каждое интервью, на которое я ходил, начиналось с вопроса: «Так вы знакомы с алгоритмами машинного обучения?» Чаще всего мне приходилось пытаться отвечать на вопросы о больших данных, высокопроизводительных вычислениях и темах по нейронным сетям, CART, вспомогательным векторным машинам, ускорению деревьев, неконтролируемым моделям и т. Д. Конечно, я убедил себя, что это все вопросы статистики в глубине души, но в конце каждого интервью я не мог не чувствовать, что все меньше и меньше знаю о том, что такое ученый по данным.
Я статистик, но я специалист по данным? Я работаю над научными проблемами, поэтому я должен быть ученым! А также я работаю с данными, поэтому я должен быть специалистом по данным! И согласно Википедии, большинство ученых согласились бы со мной ( https://en.wikipedia.org/wiki/Data_science и т. Д.)
Хотя использование термина «наука о данных» в бизнес-среде резко возросло, многие ученые и журналисты не видят различий между наукой о данных и статистикой.
Но если я собираюсь пройти все эти собеседования на должность ученого по данным, почему мне кажется, что они никогда не задают мне статистические вопросы?
Ну, после моего последнего собеседования я захотел, чтобы любой хороший ученый поступил, и я искал данные для решения этой проблемы (эй, в конце концов, я ученый данных). Однако после многих бесчисленных поисков в Google я оказался там, где начал чувствовать, что снова пытаюсь определить, что представляет собой ученый по данным. Я не знал, что такое ученый данных, поскольку у него было так много определений ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) но казалось, что все говорили мне, что я хочу быть одним из них:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- и т.д .... список можно продолжить.
Ну, в конце концов, я понял, что такое «ученый данных», это очень сложный вопрос. Черт, в Амстате было два полных месяца, где они посвятили время попыткам ответить на этот вопрос:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Ну, пока, я должен быть сексуальным статистиком, чтобы быть специалистом по данным, но, надеюсь, кросс-валидированное сообщество сможет пролить некоторый свет и помочь мне понять, что значит быть специалистом по данным. Разве не все специалисты по статистике данных?
(Edit / Update)
Я думал, что это может оживить разговор. Я только что получил электронное письмо от Американской статистической ассоциации о работе с Microsoft в поиске Data Scientist. Вот ссылка: Должность ученого . Я думаю, что это интересно, потому что роль позиции влияет на многие специфические черты, о которых мы говорили, но я думаю, что многие из них требуют очень строгого опыта в статистике, а также противоречат многим ответам, опубликованным ниже. В случае, если ссылка не работает, вот те качества, которые Microsoft ищет в специалисте по данным:
Основные требования и навыки работы:
Опыт работы в сфере бизнеса с использованием аналитики
- Должен иметь опыт в нескольких соответствующих областях бизнеса в использовании навыков критического мышления для концептуализации сложных бизнес-задач и их решений с использованием расширенной аналитики в крупномасштабных реальных наборах бизнес-данных
- Кандидат должен иметь возможность самостоятельно управлять аналитическими проектами и помогать нашим внутренним клиентам понимать выводы и воплощать их в действия, приносящие пользу их бизнесу.
Прогнозирующее моделирование
- Опыт различных отраслей в прогнозном моделировании
- Определение бизнес-задач и концептуальное моделирование с клиентом для выявления важных отношений и определения объема системы
Статистика / Эконометрика
- Исследовательская аналитика данных для непрерывных и категориальных данных
- Спецификация и оценка структурных моделей уравнений для поведения предприятия и потребителя, себестоимости продукции, факторного спроса, дискретного выбора и других технологических взаимосвязей по мере необходимости
- Продвинутые статистические методы для анализа непрерывных и категориальных данных
- Анализ временных рядов и внедрение моделей прогнозирования
- Знания и опыт работы с несколькими переменными проблемами
- Умение оценивать правильность модели и проводить диагностические тесты
- Способность интерпретировать статистику или экономические модели
- Знания и опыт в построении моделирования дискретных событий и динамических имитационных моделей
Управление данными
- Знакомство с использованием T-SQL и аналитики для преобразования данных и применением методов исследовательского анализа данных для очень больших наборов данных реального мира.
- Внимание к целостности данных, включая избыточность данных, точность данных, ненормальные или экстремальные значения, взаимодействия данных и пропущенные значения.
Навыки общения и сотрудничества
- Работать независимо и иметь возможность работать с виртуальной проектной командой, которая будет искать инновационные решения для сложных бизнес-задач
- Сотрудничайте с партнерами, применяйте навыки критического мышления и доводите аналитические проекты до конца
- Превосходные коммуникативные навыки, как устные, так и письменные
- Визуализация аналитических результатов в форме, которую могут использовать различные заинтересованные стороны
Пакеты программ
- Расширенные статистические / эконометрические программные пакеты: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Исследование, визуализация и управление данными: T-SQL, Excel, PowerBI и аналогичные инструменты
Квалификация:
- Требуется минимум 5+ лет соответствующего опыта
- Аспирантура в количественной области желательна.
источник
Ответы:
Есть несколько юмористических определений, которые еще не были даны:
Мне нравится этот, так как он играет на угле больше, чем вещество.
Точно так же это риффы на западном побережье аромата всего этого.
Лично я считаю обсуждение (вообще и здесь) несколько скучным и повторяющимся. Когда я думал о том, что я хотел - возможно, четверть века или дольше назад - я стремился к количественному аналитику. Это все еще то, что я делаю (и люблю!), И это в основном пересекается и покрывает то, что было дано здесь в различных ответах.
(Примечание: существует более старый источник для второй цитаты, но я не могу найти его прямо сейчас.)
источник
I find the discussion (in general, and here) somewhat boring and repetitive
и я бы добавил, что напрасные разговоры о пустяках или новых шумных словах. Я до сих пор не могу провести различие между учеными-данными, учеными-христианами и саентологами.Люди определяют науку данных по-разному, но я думаю, что общая часть такова:
Вопреки своему названию, это редко "наука". То есть в науке о данных акцент делается на практических результатах (например, в машиностроении), а не на доказательствах, математической чистоте или строгости, свойственной академической науке. Вещи должны работать, и есть небольшая разница, если это основано на академической работе, использовании существующей библиотеки, вашем собственном коде или импровизированном взломе.
Статистик не нужен программист (может использовать ручку и бумагу и специальное программное обеспечение). Кроме того, некоторые вакансии в науке о данных не имеют ничего общего со статистикой. Например, это инженерия данных, такая как обработка больших данных, даже если самые сложные математические вычисления могут вычислять среднее значение (хотя я лично не назвал бы эту деятельность "наукой о данных"). Более того, «наука о данных» раскручена, поэтому косвенно связанные с этим должности используют это название - чтобы заманить претендентов или поднять эго на нынешних работников.
Мне нравится таксономия из ответа Майкла Хохстера о Quora :
В этом смысле Type A Data Scientist - это статистик, который умеет программировать. Но даже в количественном отношении могут быть люди, имеющие более глубокие знания в области компьютерных наук (например, машинное обучение), чем в обычной статистике, или те, кто занимается, например, визуализацией данных.
И Диаграмма Вена Науки Данных (здесь: взлом ~ программирование):
см. также альтернативные диаграммы Венна ( это и то ). Или даже твит , хотя и юмористический, показывающий сбалансированный список типичных навыков и действий ученого, занимающегося данными:
Смотрите также этот пост: Ученый данных - статистика, программист, консультант и визуализатор? ,
источник
Есть ряд исследований в области науки о данных. Мне нравится этот , потому что он пытается проанализировать профили людей, которые фактически работают на науке о данных. Вместо того, чтобы использовать неподтвержденные данные или предвзятость автора, они используют методы науки данных для анализа ДНК ученого данных.
Довольно показательно смотреть на навыки, перечисленные учеными в области данных. Обратите внимание, что 20 лучших навыков содержат множество ИТ-навыков.
ОБНОВИТЬ:
Если у вас есть докторская степень, вы, скорее всего, уже ученый, особенно если у вас есть опубликованные статьи и активные исследования. Вы не должны быть ученым, чтобы быть ученым данных, все же. Есть некоторые роли в некоторых фирмах, таких как Walmart (см. Ниже), где требуется докторская степень, но обычно ученые-ученые имеют степени BS и MS, как вы можете видеть из примеров ниже.
Как видно из приведенной выше таблицы, скорее всего, вам понадобятся хорошие навыки программирования и обработки данных. Кроме того, часто наука о данных связана с некоторым уровнем, часто «глубоким», опытом в машинном обучении. Вы, конечно, можете назвать себя специалистом по данным, если у вас есть докторская степень в области статистики. Тем не менее, докторская степень в области компьютерных наук из лучших школ может быть более конкурентоспособной, чем у выпускников, потому что они могут обладать достаточно сильными прикладными статистическими знаниями, которые дополняются сильными навыками программирования - востребованная комбинация работодателей. Чтобы противостоять им, вы должны приобрести сильные навыки программирования, поэтому в итоге вы будете очень конкурентоспособны. Интересно то, что обычно все статические доктора наук имеют некоторый опыт программирования, но в науке о данных часто требования намного выше, чем
Для меня преимущество наличия доктора философии в статистике заключается в задаче, описанной в оставшейся части фразы «мастер на все руки», которую обычно отбрасывают: «мастер ни одного». Хорошо, когда есть люди, которые знают немного всего, но я всегда ищу людей, которые тоже что-то глубоко знают, будь то статистика или информатика, это не так важно. Важно то, что парень способен добраться до сути, это удобное качество, когда вам это нужно.
Опрос также перечисляет ведущих работодателей ученых данных. Microsoft находится на вершине, по-видимому, что меня удивило. Если вы хотите получить лучшее представление о том, что они ищут, полезно поискать в LinkeIn с «наукой о данных» в разделе «Работа». Ниже приведены две выдержки из работы MS и Walmart в LinkedIn, чтобы подчеркнуть.
Microsoft Data Scientist
Обратите внимание, что знание пакетов stat - это только плюс, но для этого необходимы отличные навыки программирования на Java.
Walmart, Data Scientist
Здесь, доктор философии является предпочтительным, но названа только специальность информатики. Распределенные вычисления с помощью Hadoop или Spark, вероятно, являются необычным навыком для статистики, но некоторые физики-теоретики и прикладные математики используют подобные инструменты.
ОБНОВЛЕНИЕ 2:
«Уже настало время убить заголовок« Data Scientist »», - говорит Томас Давенпорт, который в соавторстве написал статью в Harvard Business Review в 2012 году под названием «Data Scientist: Самая сексуальная работа 21-го века» .
источник
Где-то я читал это (РЕДАКТИРОВАТЬ: Джош Уилл объясняет свой твит ):
Эта цитата может быть кратко объяснена этим процессом науки о данных . Первый взгляд на эту схему выглядит как «ну, где же часть программирования?», Но если у вас есть тонны данных, вы должны быть в состоянии их обработать.
источник
Я написал несколько ответов, и каждый раз они становились длинными, и в конце концов я решил, что я встаю на мыльницу. Но я думаю, что этот разговор не полностью исследовал два важных фактора:
Наука в науке данных. Научный подход заключается в том, что вы пытаетесь разрушить свои собственные модели, теории, особенности, выбор методов и т. Д., И только когда вы не можете этого сделать, вы соглашаетесь с тем, что ваши результаты могут быть полезны. Это образ мышления, и многие из лучших ученых, с которыми я встречался, имеют глубокие научные знания (химия, биология, инженерия).
Наука о данных - это широкая область. Хорошие результаты Data Science обычно включают в себя небольшую команду Data Scientists, каждый со своей специализацией. Например, один член команды более строг и статистичен, другой - лучший программист с инженерным образованием, а другой - сильный консультант, разбирающийся в бизнесе. Все трое быстро изучают предмет, и все трое любопытны и хотят найти правду - пусть и болезненную - и делать то, что в интересах (внутреннего или внешнего) клиента, даже если клиент этого не делает. Т понять.
Причудой последних нескольких лет, которая, как мне кажется, сейчас исчезает, является набор специалистов по компьютерам, которые освоили кластерные технологии (экосистема Hadoop и т. Д.) И которые считают его идеальным специалистом по данным. Я думаю, что это то, с чем столкнулся OP, и я бы посоветовал OP использовать их сильные стороны в строгости, правильности и научном мышлении.
источник
Я думаю, что Bitwise покрывает большую часть моего ответа, но я собираюсь добавить свой 2c.
Нет, извините, но статистика не является специалистом по данным, по крайней мере, исходя из того, как большинство компаний определяют роль сегодня. Обратите внимание, что определение изменилось с течением времени, и одна из задач практикующих специалистов - убедиться, что они остаются актуальными.
Я поделюсь некоторыми общими причинами того, почему мы отказываемся от кандидатов на роль «Data Scientist»:
Конечно, для младшей роли не может быть всего вышеперечисленного. Но сколько из этих навыков вы можете позволить себе пропустить и получить работу?
Наконец, чтобы уточнить, самой распространенной причиной отказа от не статистиков является именно отсутствие даже базовых знаний статистики. И где-то есть разница между инженером данных и специалистом по данным. Тем не менее, инженеры данных, как правило, претендуют на эти роли, так как часто они считают, что «статистика» - это просто среднее значение, дисперсия и нормальное распределение. Таким образом, мы можем добавить несколько важных, но страшных статистических словечек в должностных инструкциях, чтобы прояснить, что мы подразумеваем под «статистикой», и избежать путаницы.
источник
Позвольте мне игнорировать ажиотаж и модные слова. Я думаю, что «Data Scientist» (или как вы хотите это называть) - это реальная вещь, которая отличается от статистики. Есть много типов должностей, которые по сути являются специалистами по данным, но им не дано это имя - один из примеров - люди, работающие в области геномики.
На мой взгляд, ученый, занимающийся данными, - это тот, кто обладает навыками и знаниями для разработки и проведения исследований больших объемов сложных данных (например, многомерных, в которых основные механизмы неизвестны и сложны).
Это означает:
источник
Все отличные ответы, однако в моем опыте поиска работы я отметил, что термин «ученый данных» был перепутан с «младшим аналитиком данных» в умах рекрутеров, с которыми я общался. Таким образом, многие приятные люди, не имеющие опыта в области статистики, за исключением того вводного однократного курса, который они прошли пару лет назад, теперь называют себя учеными данных. Как человек с опытом работы в области компьютерных наук и многолетним опытом работы в качестве аналитика данных, я получил степень кандидата наук в области статистики позднее в своей карьере, думая, что это поможет мне выделиться из толпы, и я оказался в неожиданно большой толпе "ученых-данных". ». Я думаю, что я мог бы вернуться к "статистике"!
источник
Я младший сотрудник, но моя должность называется «ученый данных». Я думаю, что ответ Bitwise является удачным описанием того, что меня наняли, но я хотел бы добавить еще один момент, основанный на моем повседневном опыте работы:
Наука - это процесс исследования. Когда данные являются средством, с помощью которого делается этот запрос, происходит наука о данных. Это не означает, что каждый, кто экспериментирует или проводит исследования с данными, обязательно является специалистом по данным, точно так же, как не каждый, кто экспериментирует или проводит исследования с проводкой, обязательно является инженером-электриком. Но это означает, что можно приобрести достаточно подготовки, чтобы стать профессиональным «запросчиком данных», точно так же, как можно приобрести достаточно подготовки, чтобы стать профессиональным электриком. Это обучение в большей или меньшей степени состоит из пунктов в ответе Bitwise, из которых статистика является компонентом, но не полностью.
Ответ Пиотра - также хорошее резюме всех вещей, которые я
должен сделать,чтобы я знал, как сделать в течение данной недели. Моя работа до сих пор в основном помогала устранить ущерб, нанесенный бывшими сотрудниками, которые принадлежали к компоненту «Опасная зона» диаграммы Венна.источник
Я также недавно заинтересовался наукой данных как карьерой, и когда я думаю о том, что я узнал о работе по науке данных в сравнении с многочисленными статистическими курсами, которые я проходил (и получал удовольствие!), Я начал думать о специалистах по данным как компьютерные ученые, которые обратили свое внимание на данные. В частности, я отметил следующие основные отличия. Обратите внимание, что различия появляются настроение. Следующее только отражает мои субъективные впечатления, и я не претендую на общность. Просто мои впечатления!
В статистике вы очень заботитесь о распределениях, вероятностях и логических процедурах (как проводить проверки гипотез, которые лежат в основе распределений и т. Д.). Из того, что я понимаю, наука о данных чаще всего связана с прогнозированием, и беспокойство по поводу выводов в некоторой степени поглощается процедурами из информатики, такими как перекрестная проверка.
В статистических курсах я часто просто создавал свои собственные данные или использовал некоторые готовые данные, которые доступны в довольно чистом формате. Это означает, что он имеет хороший прямоугольный формат, какую-то электронную таблицу Excel или что-то подобное, что хорошо вписывается в оперативную память. Очистка данных, безусловно, необходима, но мне никогда не приходилось иметь дело с «извлечением» данных из Интернета, не говоря уже о базах данных, которые нужно было настроить для хранения того объема данных, который больше не помещается в оперативную память. У меня сложилось впечатление, что этот вычислительный аспект гораздо более доминирует в науке о данных.
Возможно, это отражает мое незнание того, что делают статистики в типичных статистических работах, но до исследования данных я никогда не думал о том, чтобы встроить модели в более крупный продукт. Необходимо было провести анализ, решить статистическую проблему, оценить какой-то параметр, и это все. В науке о данных кажется, что часто (хотя и не всегда) прогностические модели встроены в нечто большее. Например, вы щелкаете где-то, и в течение миллисекунд прогнозирующий алгоритм определит, что будет отображаться в результате. Итак, в то время как в статистике я всегда задавался вопросом «какой параметр мы можем оценить и как мы делаем это элегантно», кажется, что в науке о данных больше внимания уделяется «что мы можем предсказать, что потенциально полезно в продукте данных» ,
Опять же, вышеизложенное не пытается дать общее определение. Я просто указываю на основные различия, которые я воспринимал сам. Я еще не в науке о данных, но я надеюсь перейти в следующем году. В этом смысле возьмите мои два цента здесь с зерном соли.
источник
Я говорю, что Data Scientist - это роль, в которой человек создает удобочитаемые результаты для бизнеса, используя методы, чтобы сделать результат статистически достоверным (значимым).
Если какая-либо часть этого определения не соблюдается, мы говорим о разработчике, настоящем ученом / статистике или инженере данных.
источник
Мне всегда нравится переходить к сути вопроса.
источник
Наука данных - это междисциплинарная смесь вывода данных, разработки алгоритмов и технологий для решения аналитически сложных задач. Но из-за нехватки ученых данных карьера в науке о данных может действительно создать многочисленные возможности. Однако организации ищут сертифицированных специалистов из SAS, Совета по науке о данных (DASCA), Hortonworks и т. Д. Надеемся, что это хорошая информация!
источник
Специалисты по данным имеют очень хорошие навыки в разработке на Python, MySQL и Java.
У них очень четкое понимание аналитических функций, они отлично разбираются в математике, статистике, интеллектуальном анализе данных, навыках прогнозного анализа, а также действительно хорошо знают языки кодирования, такие как Python и R.
У многих ученых-данных сейчас есть докторская степень. или их степень магистра фактически согласно исследованию только приблизительно 8% имеют просто степень бакалавра, таким образом это намного более глубоко.
Построение статистических моделей, которые принимают решения на основе данных. Каждое решение может быть трудным, например, блокировать отображение страницы, или мягким, например, назначать оценку за вредоносность страницы, которая используется нисходящими системами или людьми.
Проведение экспериментов причинно-следственной связи, которые пытаются приписать первопричину наблюдаемого явления. Это можно сделать, спроектировав эксперименты А / Б или если в эксперименте А / Б невозможно применить эпидемиологический подход к проблеме, например, @ причинная модель Рубина
Выявление новых продуктов или функций, возникающих при раскрытии ценности данных; быть лидером мысли о ценности данных. Хорошим примером этого является функция рекомендаций по продуктам, которую Amazon впервые сделала доступной для массовой аудитории.
источник
Чтобы ответить на ваш вопрос "Что такое ученый данных?" Может быть, стоит знать о разнице между Data Scientist и Data Mechanic, как отмечено в http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/
источник