Как самостоятельно изучить науку о данных? [закрыто]

16

Я веб-разработчик-самоучка и заинтересован в обучении науке о данных, но не знаю, с чего начать. В частности мне интересно

  1. Какие области существуют в науке о данных? (например, искусственный интеллект, машинное обучение, анализ данных и т. д.)
  2. Есть ли онлайн-классы, которые люди могут порекомендовать?
  3. Существуют ли проекты, на которых я могу практиковаться (например, открытые наборы данных).
  4. Есть ли сертификаты, на которые я могу подать заявку или пройти?
Мартин
источник

Ответы:

15

Добро пожаловать на сайт, Мартин! Это довольно широкий вопрос, поэтому вы, вероятно, получите множество ответов. Вот мой дубль.

  1. Наука о данных - это междисциплинарная область, которая, как правило, объединяет классическую статистику, машинное обучение и информатику (опять же, это зависит от того, кого вы спрашиваете, но другие могут включать здесь бизнес-аналитику, а также возможную визуализацию информации или обнаружение знаний; например, статья в википедии по науке о данных ). Хороший ученый, специализирующийся на данных, также хорошо разбирается в характеристиках домена, в котором они работают. Например, ученый, работающий над аналитикой для больничных записей, гораздо эффективнее, если у него есть опыт работы в области биомедицинской информатики.
  2. Здесь есть много вариантов, в зависимости от типа аналитики, которая вас интересует. Курс Эндрю Нг - первый ресурс, упомянутый большинством , и это правильно. Если вы заинтересованы в машинном обучении, это отличная отправная точка. Если вы хотите глубже изучить математику, то «Элементы статистического обучения» Тибширани - отличный, но довольно продвинутый текст. Есть много онлайн-курсов, доступных на Coursera, в дополнение к Ng, но вы должны выбирать их с умом для того типа аналитики, на котором вы хотите сосредоточиться, и / или области, в которой вы планируете работать.
  3. Kaggle . Начните с kaggle, если вы хотите погрузиться в некоторые реальные аналитические проблемы. В зависимости от вашего уровня знаний, возможно, было бы неплохо начать с более простого. Project Euler - отличный ресурс для разовых тренировочных задач, который я до сих пор использую для разминки.
  4. Опять же, это, вероятно, зависит от области, в которой вы хотите работать. Однако я знаю, что Coursera предлагает сертификат по науке о данных, если вы пройдете серию курсов по науке о данных. Это, вероятно, хорошее место для начала.

Удачи! Если у вас есть какие-либо другие конкретные вопросы, не стесняйтесь спрашивать меня в комментариях, и я сделаю все возможное, чтобы помочь!

Кайл.
источник
1
Возвращаясь к этому, конечно , Эндрю Нг является трудно . Я должен был упомянуть, что я не силен в математике. Я слышал, что этот другой курс Data Science немного легче освоить. Как вы думаете?
Мартин
5

Я - ученый-самоучка, и я постараюсь объяснить вам, как это сделать.


Какие области существуют в науке о данных? (например, искусственный интеллект, машинное обучение, анализ данных и т. д.)

Наука Данных - очень широкая область. Это о науке данных. Таким образом, любое поле, которое использует данные для принятия решений, относится к этой области. Некоторые из полей включают в себя:

  • искусственный интеллект
  • Распознавание образов и аналитика
  • Био-статистика
  • Статистическое обучение
  • Машинное обучение
  • Эстетика данных (или визуализация данных)
  • Журналистика данных

Есть ли онлайн-классы, которые люди могут порекомендовать?

Я ответил на аналогичный вопрос . Поэтому я бы процитировал это здесь:

Начните с курса машинного обучения Coursera . Он действительно хорошо знакомит студента с областью машинного обучения и помогает заложить прочную основу в концепции.

В случае, если вы чувствуете, что математика в этом курсе немного туповата, вы можете пройти этот курс , преподаваемый тем же профессором, и интенсивнее математики, чем первый.

Теперь у вас будет четкая интуиция об основных понятиях машинного обучения. Теперь возьмите этот курс , который можно назвать продолжением или дополнением к курсу Эндрю Нг.

Этот ресурс от IAPR содержит подробные заметки по многим понятиям ML, таким как перекрестная проверка, регуляризация и т. Д.

Вы также можете взглянуть на этот удивительный список ресурсов, собранный в блог на Quora.

Теперь, чтобы погрузиться в продвинутые концепции нейронных сетей и глубокого обучения, вы можете воспользоваться этой бесплатной книгой .

Наконец, бесплатная электронная книга « Элементы статистического обучения» - замечательная книга для начинающих в области ОД или статистического обучения.

В дополнение к этому, посмотрите этот репозиторий ссылок на науку о данных от Quora .


Существуют ли проекты, на которых я могу практиковаться (например, открытые наборы данных).

Я начал делать проекты с открытыми наборами данных Индии. Тем не менее, я бы порекомендовал вам проверить это удивительное обсуждение здесь , и после выполнения этих проектов вы можете начать с Kaggle.


Есть ли сертификаты, на которые я могу подать заявку или пройти?

На мой взгляд, нет никаких сертификатов науки о данных . Да, существует множество сертификатов на большие данные, но я не видел, чтобы они были действительно полезны для начинающего специалиста по данным, поэтому я рекомендую вам не преследовать их хотя бы до тех пор, пока вы не будете достаточно уверены в своих навыках ML и данных.

Dawny33
источник
1

Я рекомендую начинать со специализаций Coursera в науке о данных. Специализация по науке о данных Джонсом Хопкинсом является старейшей специализацией. Я не рекомендую книги и трепаться. Они только смущают вас в начале. Помните, что кодирование - это самая легкая часть науки о данных, и вам нужно многому научиться. Чтобы получить представление о поле, эта диаграмма Венна - хорошее начало.

Hamideh
источник