Прежде всего, этот термин звучит так неясно.
В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:
1- Статистика
2- Алгебра
3- Анализ данных
4- Визуализация.
5- Машинное обучение.
Что я знаю до сих пор:
1- программирование на Python 2 - утилизация данных в Python
Можете ли вы, эксперты, наставить меня или предложить план, чтобы освежить и теорию, и практику? Я дал себе около 8 месяцев.
Ответы:
Сосредоточиться меньше на приобретении навыков и больше на приобретении опыта. Попробуйте решить некоторые проблемы и опубликуйте свою работу на github. Вы узнаете больше в процессе и сможете продемонстрировать знания и опыт работодателям, что гораздо более ценно, чем, по-видимому, глубокое понимание темы или теории.
Наука о данных - это довольно загруженная область в наши дни, поэтому я не уверен, какую работу вы конкретно хотите выполнять, но, если учесть, что машинное обучение является ее компонентом, тогда kaggle.com - хорошее место для начала. С точки зрения целей, если вы можете работать с данными в pandas / numpy / scipy, создавать модели в sci-kit learn и создавать несколько симпатичных графиков в seaborn, ggplot или даже matplotlib, то у вас не возникнет проблем с получением работа с точки зрения навыков - особенно если у вас есть примеры кода и примеры, чтобы продемонстрировать свои способности. Если вы застряли, то у stackexchange будет либо ответ, либо вы можете опубликовать вопрос, и вскоре у вас будет ответ. Как только вы зарабатываете на жизнь, вы узнаете еще больше, вероятно, от старшего члена команды, который наставляет вас.
Удачи.
источник
Мне нравится курс Беркли по науке о данных, который даст хорошую основу и вкус к науке о данных, после того как я перешел на udacity и coursera и еще много ресурсов. Поэтому, если у вас есть навыки программирования, вам понадобятся математика и статистика, а также много визуализации. Также будет здорово привыкнуть к IPython, потому что важно видеть каждый шаг (визуализировать), как он выполняет, вместо этого писать целый сценарий и тестировать после него (anaconda легко установить и работать с ней). Курс указан ниже: bcourses.berkeley.edu/courses/1267848/wiki также статистика, которую я считаю хорошим бесплатным курсом из SAS: Статистика 1: Введение в ANOVA, регрессия и логистическая регрессия support.sas.com/edu/schedules.html ? ctry = мы & ID = 1979
Начиная с ML рекомендую: www.kaggle.com/c/titanic/details/getting-started-with-python
на левой стороне также для Excel с использованием сводных таблиц и R. DataCamp выпустил учебное пособие о том, как использовать R. После того, как вы выполните эти шаги, больше соревнований в приобретении опыта на Kaggle (недавно выпущен один для классификации преступлений Сан-Франциско) и в конечном итоге удивительные видеоуроки от www.dataschool.io
Надеюсь, это поможет ...
источник
Не согласен с Дэвидом, настоящим исследователем данных, который является прикладным статистиком, который кодирует и знает, как использовать алгоритмы машинного обучения по правильным причинам. Статистика является основой всей науки о данных. Это «пирог» как таковой. Все остальное просто глазурь.
Вопрос в том, каким ученым данных вы хотите быть? Вы хотите стать хозяином предмета (знание того, как, почему, когда и когда не применять алгоритм или технику) или Kaggle Script Kiddie, используя Scipy и думая, что он Data Scientist?
1 - Статистика
2- все остальное
источник
Если вы хотите быть практичным человеком с истинными знаниями, начните с математики (исчисление, вероятность + стат, линейная алгебра). На каждом этапе старайтесь реализовать все с помощью программирования, для этого хорошо подходит python. Когда у вас будет хорошая площадка, играйте с реальными данными и решайте проблемы
Курсы. Линейная алгебра - edx Laff или кодирование матрицы Stat - edx stat 2x исчисление Баркли - читать ... это просто
источник
У Дэвида есть хорошая точка зрения, я бы посоветовал вам сосредоточиться на том, что вас больше интересует. Это единственный способ добиться успеха в любых усилиях. Если вы хотите построить что-то классное, начните с него. Если вы хотите прочитать книгу, это тоже хорошо. Отправная точка не имеет значения. Через несколько дней у вас будет лучшее понимание того, что вы хотите и что делать дальше.
источник
Наука о данных настолько широка, что в нее можно попасть разными путями. Обычно он делится на 4 или 5 различных типов, например:
Из других постов в этой теме вы могли видеть людей, пришедших из области прикладной статистики (применяя правильный алгоритм), фона программирования (участвуя в Kaggle) и других, применяющих его в бизнес-среде.
Опытные компании могут назвать программиста с перекосами как «Инженер данных». Крупные компании также используют каждый тип для своей команды по науке о данных, поэтому было бы неплохо продемонстрировать хорошие Т-образные навыки.
источник
Если вы программист, вы можете начать с классификатора дерева решений, сосредоточиться на понимании математики энтропии и получения информации. Важно понимать, что ML - это просто сжатие данных.
Я очень не согласен с некоторыми другими ответами о ценности практических курсов. Наиболее ценным для ML является математика: теория чисел, линейная алгебра и теория вероятностей.
Если вы не сосредоточитесь на математике, единственное, чему вы научитесь, это то, как использовать какую-то библиотеку для магии, это не машинное обучение и не наука вообще.
источник