Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно.
Мой вопрос: какие навыки может извлечь майнер, который отличает его от других? Чтобы сделать его не таким простым, чтобы найти кого-то вроде него.
machine-learning
data-mining
Джек Твен
источник
источник
Ответы:
Я видел, как разработчики несколько раз использовали методы ML. Это обычный шаблон:
Простой ответ заключается в том, что (большинство) инженеры-программисты очень слабы в статистике и математике. Это преимущество любого, кто хочет с ними соревноваться. Конечно, статистика не в их зоне комфорта, если им нужно написать производственный код. Роль, которая становится действительно редкой, - это роль Data Scientist. Это тот, кто может написать код, чтобы получить доступ к огромному количеству данных и поиграть в них, чтобы найти в них ценность.
источник
О чем это
Знание техник сродни знанию животных в зоопарке - вы можете назвать их, описать их свойства, возможно, идентифицировать их в дикой природе.
Понимание того, когда их использовать, формулирование, построение, тестирование и развертывание рабочих математических моделей в области приложения, избегая при этом ловушек, - это те навыки, которые отличают, на мой взгляд.
Упор следует делать на науку , применяя системный, научный подход к бизнесу, промышленным и коммерческим проблемам. Но для этого требуются навыки, более широкие, чем интеллектуальный анализ данных и машинное обучение, как убедительно утверждает Робин Блур в «A Data Science Rant» .
Так что можно сделать?
Области применения : узнайте о различных областях применения, близких к вашим интересам или интересам вашего работодателя. Область часто менее важна, чем понимание того, как была построена модель и как она использовалась для повышения ценности этой области. Модели, которые успешны в одной области, часто могут быть перенесены и применены к различным областям, которые работают подобным образом.
Соревнования : попробуйте сайт конкурса интеллектуального анализа данных Kaggle , желательно присоединиться к команде других. (Kaggle: платформа для соревнований по прогнозирующему моделированию. Компании, правительства и исследователи представляют наборы данных и проблемы, а лучшие в мире ученые-данные соревнуются за лучшие решения.)
Основы : Есть четыре: (1) прочное обоснование в статистике, (2) достаточно хорошие навыки программирования, (3) понимание того, как структурировать сложные запросы данных, (4) построение моделей данных. Если кто-то слаб, то это важное место для начала.
Несколько цитат на этот счет:
Иметь ввиду:
И наконец:
Большинство реальных прикладных задач не доступны только из `` карты ''. Чтобы делать практические вещи с математическим моделированием, нужно быть готовым разбираться в деталях, тонкостях и исключениях. Ничто не может заменить знание территории из первых рук.
источник
Я согласен со всем, что было сказано. Что выделяется для меня:
источник
Вот несколько вещей, которые выделяют вас из толпы:
Общее сообщение, которое относится ко всем трем пунктам: посмотрите на общую картину, не теряйтесь в деталях.
источник
Умение, которое отличает одного майнера данных от других, - это способность интерпретировать модели машинного обучения. Большинство строит машину, сообщает об ошибке и затем останавливается. Каковы математические отношения между функциями? Являются ли эффекты аддитивными или не аддитивными или и тем, и другим? Есть ли какие-либо особенности не имеют отношения? Ожидается ли машина в соответствии с нулевой гипотезой, что в данных присутствуют только случайные паттерны? Обобщает ли модель независимые данные? Что эти модели означают для изучаемой проблемы? Какие выводы? Какие идеи? Почему эксперт по домену должен волноваться? Приведет ли машина к тому, чтобы эксперт по области задавал новые вопросы и разрабатывал новые эксперименты? Может ли майнер данных эффективно сообщить модель и ее последствия для мира?
источник
Я бы выдвинул понятие «мягкие навыки».
признание того, кто является «экспертом» для метода X, и возможность использовать их знания (вы не должны или не должны знать все о чем-либо). Способность и желание сотрудничать с другими.
способность переводить или представлять «реальный мир» с помощью математики, используемой в ОД.
способность по-разному объяснять свои методы разной аудитории - зная, когда следует сосредоточиться на деталях, а когда отступить и посмотреть в более широком контексте.
системное мышление, способность видеть, как ваша роль влияет на другие сферы бизнеса и как эти области влияют на вашу работу.
понимание и понимание неопределенности и наличие некоторых структурированных методов для ее устранения. Умение четко заявить, каковы ваши предположения.
источник
Умение хорошо обобщать
Это суть хорошей модели. И это суть того, что отличает лучших практиков искусства машинного обучения от толпы.
Понимание того, что цель состоит в том, чтобы оптимизировать производительность на невидимых данных, а не минимизировать потери при обучении. Знание того, как избежать как переоснащения, так и несоответствия. Придумать модели, которые не слишком сложны, но не слишком просты в описании проблемы. Извлечение сути тренировочного набора, а не максимально возможного.
Удивительно, как часто даже опытные специалисты по машинному обучению не следуют этому принципу. Одна из причин заключается в том, что люди не могут оценить две огромные разницы между теорией и практикой :
Это также то, что большинство из приведенных выше ответов сказано более конкретными и конкретными способами. обобщать хорошо - это просто кратчайший путь, который я мог придумать.
источник
Я вижу, что есть две части при работе с машинным обучением на практике
Инжиниринг (который охватывает все алгоритмы, изучение различных пакетов, программирование).
Любопытство / Рассуждение (умение задавать более качественные вопросы данным).
Я думаю, что «любопытство / рассуждение» - это умение, которое отличает одного от других. Например, если вы видите списки лидеров завершений kaggle, многие люди могли использовать общие (схожие) алгоритмы, в чем разница, как логически подвергать сомнению данные и формулировать их.
источник