Я хочу стать специалистом по данным . Я изучал прикладную статистику (актуарная наука), поэтому у меня большой статистический фон (регрессия, случайный процесс, временные ряды, и это лишь некоторые из них). Но сейчас я собираюсь получить степень магистра в области компьютерных наук в области интеллектуальных систем.
Вот мой учебный план:
- Машинное обучение
- Продвинутое машинное обучение
- Сбор данных
- Нечеткая логика
- Рекомендации системы
- Распределенные системы данных
- Облачные вычисления
- Открытие знаний
- Бизнес-аналитика
- Поиск информации
- Добыча текста
В конце концов, со всеми моими знаниями в области статистики и информатики, могу ли я назвать себя специалистом по данным? или я не прав?
Спасибо за ответы.
machine-learning
statistics
career
user3643160
источник
источник
Ответы:
Я думаю, что вы на правильном пути, чтобы стать экспертом в области данных . Недавно я ответил связанный с этим вопрос здесь Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (обратите внимание на определение я упоминаю здесь, так как она по существу отвечает на ваш вопрос сам по себе, а также к аспекты практики разработки программного обеспечения и применения знаний для решения реальных проблем). Я надеюсь, что вы найдете все это полезным. Удачи в вашей карьере!
источник
Ну, это зависит от того, в какую «науку о данных» вы хотите попасть. Для базовой аналитики и отчетности статистика, безусловно, поможет, но для машинного обучения и искусственного интеллекта вам понадобится еще несколько навыков.
Теория вероятностей - у вас должен быть твердый фон в чистой вероятности, чтобы вы могли разложить любую проблему, независимо от того, видели ли вы ее раньше или нет, на вероятностные принципы. Статистика очень помогает для уже решенных проблем, но новые и нерешенные проблемы требуют глубокого понимания вероятности, чтобы вы могли разработать соответствующие методы.
Теория информации - это (по отношению к статистике) довольно новая область (хотя еще десятилетия тому назад), самая важная работа была Шенноном, но еще более важным и часто пренебрегаемым примечанием в литературе является работа Хобсона, которая доказала, что расхождение Кульбака-Лейблера это единственное математическое определение, которое действительно отражает понятие «меры информации» . В настоящее время фундаментальным для искусственного слияния является возможность количественного определения информации. Предлагаю прочитать «Концепции в статистической механике» - Артур Хобсон (очень дорогая книга, доступна только в академических библиотеках).
Теория сложности- Большая проблема, с которой сталкиваются многие Data Scientists, не имеющие основательной теории сложности, заключается в том, что их алгоритмы не масштабируются или просто требуют очень много времени для работы с большими данными. Возьмите, например, PCA, любимый ответ многих людей на вопрос интервью «как сократить количество функций в нашем наборе данных», но даже если вы скажете кандидату «набор данных действительно очень большой», они все равно предложат различные формы PCA, которые являются O (n ^ 3). Если вы хотите выделиться, вы хотите быть в состоянии решить каждую проблему самостоятельно, а НЕ бросать какое-либо решение из учебника, разработанное давным-давно, до того, как Big Data стала такой модной вещью. Для этого вам нужно понять, сколько времени потребуется для запуска, не только теоретически, но и практически - так, как использовать кластер компьютеров для распространения алгоритма,
Навыки общения - огромная часть Data Science - это понимание бизнеса. Независимо от того, изобретаете ли вы продукт, основанный на науке о данных, или даете бизнес-представление, основанное на науке о данных, очень важно иметь возможность хорошо общаться как с руководителями проектов, так и с менеджерами по продуктам, техническими командами и коллегами-исследователями данных. У вас может быть удивительная идея, скажем, отличное решение для ИИ, но если вы не можете эффективно (а) сообщить, ПОЧЕМУ это принесет бизнесу деньги, (б) убедить ваших коллег, что это сработает, и (в) объяснить техническим специалистам, как вам нужно их помощь, чтобы построить это, тогда это не будет сделано.
источник
Данные ученого (для меня) большой общий термин. Я бы видел ученого, работающего с данными, как человека, который может умело использовать методы из областей интеллектуального анализа данных, машинного обучения, классификации шаблонов и статистики.
Однако эти термины переплетаются между собой: машинное обучение связано с классификацией шаблонов, а также интеллектуальным анализом данных, когда речь идет о поиске шаблонов в данных. И все методы имеют свои основные статистические принципы. Я всегда представляю это как диаграмму Венна с огромным пересечением.
Компьютерные науки также связаны со всеми этими областями. Я бы сказал, что вам нужны методы «науки о данных» для проведения компьютерных исследований, но знание информатики не обязательно подразумевает «науку о данных». Однако навыки программирования - я рассматриваю программирование и информатику как разные профессии, где программирование - это больше инструмент для решения проблем - также важны для работы с данными и проведения анализа данных.
У вас действительно хороший учебный план, и все это имеет смысл. Но я не уверен, что если вы «хотите» называть себя просто «ученый данных», у меня сложилось впечатление, что «ученый данных» - это такой неоднозначный термин, который может означать все или ничего. Я хочу сказать, что в конечном итоге вы станете чем-то более "специализированным", чем "просто" специалистом по данным.
источник