Навыки трудно найти в машинного обучения?

71

Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно.

Мой вопрос: какие навыки может извлечь майнер, который отличает его от других? Чтобы сделать его не таким простым, чтобы найти кого-то вроде него.

Джек Твен
источник
6
Хотя это ответ на другой вопрос, некоторые из пунктов моего старого ответа можно перенести сюда. Асад делает несколько похожих замечаний в своем очень хорошем ответе ниже.
кардинал

Ответы:

62

Я видел, как разработчики несколько раз использовали методы ML. Это обычный шаблон:

  1. скачать библиотеку с причудливым названием;
  2. потратить 10 минут на чтение, как его использовать (пропуская любую статистику, математику и т. д.);
  3. подпитывать его данными (без предварительной обработки);
  4. измерять производительность (например, точность, даже если классы полностью несбалансированны) и рассказывать всем, как это круто с его точностью 99%;
  5. развернуть в производство с эпическими ошибочными результатами;
  6. найти кого-то, кто понимает, что происходит, чтобы помочь им, потому что руководство по эксплуатации не имеет никакого смысла вообще.

Простой ответ заключается в том, что (большинство) инженеры-программисты очень слабы в статистике и математике. Это преимущество любого, кто хочет с ними соревноваться. Конечно, статистика не в их зоне комфорта, если им нужно написать производственный код. Роль, которая становится действительно редкой, - это роль Data Scientist. Это тот, кто может написать код, чтобы получить доступ к огромному количеству данных и поиграть в них, чтобы найти в них ценность.

iliasfl
источник
14
LOL в «Скажи всем, как это здорово с его точностью 99%»
Джек Твен,
2
+1 Я согласен со всем. «[...] Data Scientist. Это тот, кто может написать код, чтобы получить доступ к огромному количеству данных и поиграть в них». Для меня это говорит о том, что он должен оставаться естественным редкостью, поскольку большинству смертных кажется невозможным решать сложные статистические и основополагающие вопросы, а также превращать что-то в производственный код. Это также объясняет, почему у нас есть сердечно-сосудистые хирурги, анестезиологи, неврологи, медсестры, администраторы больниц и т. Д. Или гражданские, авиационные, горнодобывающие, химические, инженеры-механики и т. Д.
Томас Шпейдел
2
Для меня это не совсем описание того, что кому-то нужно, чтобы стать выдающимся кандидатом в МЛ - скорее, это удар по ОД. Похоже, вы описываете кого-то, кто слишком сосредоточен на том, чтобы получить «ответ», прежде чем он даже будет уверен в том, что это за вопрос. По сути, ваш «типичный ML» человек - это тот, у кого плохие навыки планирования, и кто-то, кто не обсуждает, что он собирается делать с «клиентом», прежде чем пахать вперед и возвращаться с «ответом». Это не то, что помогает с хорошей математикой / статистикой - это то, что требует хороших навыков общения.
вероятностная
61

О чем это

Знание техник сродни знанию животных в зоопарке - вы можете назвать их, описать их свойства, возможно, идентифицировать их в дикой природе.

Понимание того, когда их использовать, формулирование, построение, тестирование и развертывание рабочих математических моделей в области приложения, избегая при этом ловушек, - это те навыки, которые отличают, на мой взгляд.

Упор следует делать на науку , применяя системный, научный подход к бизнесу, промышленным и коммерческим проблемам. Но для этого требуются навыки, более широкие, чем интеллектуальный анализ данных и машинное обучение, как убедительно утверждает Робин Блур в «A Data Science Rant» .

Так что можно сделать?

Области применения : узнайте о различных областях применения, близких к вашим интересам или интересам вашего работодателя. Область часто менее важна, чем понимание того, как была построена модель и как она использовалась для повышения ценности этой области. Модели, которые успешны в одной области, часто могут быть перенесены и применены к различным областям, которые работают подобным образом.

Соревнования : попробуйте сайт конкурса интеллектуального анализа данных Kaggle , желательно присоединиться к команде других. (Kaggle: платформа для соревнований по прогнозирующему моделированию. Компании, правительства и исследователи представляют наборы данных и проблемы, а лучшие в мире ученые-данные соревнуются за лучшие решения.)

Основы : Есть четыре: (1) прочное обоснование в статистике, (2) достаточно хорошие навыки программирования, (3) понимание того, как структурировать сложные запросы данных, (4) построение моделей данных. Если кто-то слаб, то это важное место для начала.


Несколько цитат на этот счет:

«Я очень рано узнал разницу между знанием названия чего-либо и знанием чего-либо. Вы можете знать имя птицы на всех языках мира, но когда вы закончите, вы абсолютно ничего не узнаете о птице ... Итак, давайте посмотрим на птицу и посмотрим, что она делает - это что имеет значение. '' - Ричард Фейнман, "Создание ученого", стр. 14 в книге "Что тебя волнует, что думают другие люди", 1988

Иметь ввиду:

«Сочетание навыков, необходимых для реализации этих проектов в области науки о данных, редко встречается в одном человеке. Кто-то действительно мог бы получить обширные знания в трех областях: (i) что делает бизнес, (ii) как использовать статистику и (iii) как управлять данными и потоками данных. Если это так, он или она действительно может претендовать на звание бизнес-ученого (иначе говоря, «ученого данных») в данном секторе. Но такие люди почти так же редки, как куриные зубы. '' - Робин Блур, A Data Science Rant , август 2013, Inside Analysis

И наконец:

«Карта - не территория». Альфред Коржибски, 1933, Наука и здравомыслие.

Большинство реальных прикладных задач не доступны только из `` карты ''. Чтобы делать практические вещи с математическим моделированием, нужно быть готовым разбираться в деталях, тонкостях и исключениях. Ничто не может заменить знание территории из первых рук.


Асад Эбрахим
источник
6
+1. Готовые решения редко работают для конкретной бизнес-проблемы вашей организации. Вам нужно адаптировать и улучшать, а для этого нужно понимать, что находится под капотом.
Жубарб
4
@Жубарб - я думаю, что это только частично верно. Решения «из коробки» могут быть использованы с большим эффектом, но не всегда, а также обычно не для завершения задачи от начала до конца. Хитрость заключается в том, чтобы узнать, когда вы можете использовать «готовые решения», и когда необходим более индивидуальный подход.
вероятностная
41

Я согласен со всем, что было сказано. Что выделяется для меня:

  1. Как мало «экспертов» по ​​машинному обучению действительно заинтересованы в предмете, к которому они хотят применить ML
  2. Как мало кто по-настоящему понимает точность прогноза и правильные правила подсчета очков?
  3. Как мало кто понимает принципы валидации
  4. Как мало кто знает, когда использовать черный ящик по сравнению с традиционной моделью регрессии
  5. Как ни один из «экспертов», кажется, никогда не изучал функции оптимального решения Байеса или функции потери / полезности / стоимости [это отсутствие понимания проявляется почти каждый раз, когда кто-то использует классификацию вместо прогнозируемого риска]
Фрэнк Харрелл
источник
3
Вы не могли бы остановиться на 4? Я не совсем понимаю, что вы имеете в виду
17
Я бы подумал, что этот предмет легче всего понять. Вот пример: в определенной области исследования предположим, что у нас был предыдущий опыт, что большинство переменных работают аддитивно. Подгонка аддитивной регрессионной модели, которая не предполагает, что предикторы будут работать линейно (например, с использованием сплайнов регрессии), обеспечит интерпретируемую и полезную статистическую модель. Использование SVM или случайных лесов, с другой стороны, будет очень трудно интерпретировать, не будет иметь каких-либо разделимых эффектов и не будет предсказывать лучше, чем нелинейная аддитивная модель.
Фрэнк Харрелл
7
Да, поистине, до мелочности предмета. Даже в мире ML я часто наблюдаю эту тенденцию к тому, чтобы собирать необработанные данные в волшебную коробку, и у меня появляется замечательное понимание. Эти люди ищут искусственный мозг.
DarenW
3
+1 за пункт 1 особенно. Доказательством отсутствия интереса к домену является то, что применение знаний о домене потребует знания, как «открыть» черный ящик и изменить его. Под черным ящиком я подразумеваю, что для большей части начального уровня ML даже базовые методы статистического моделирования находятся в этом черном ящике. Если интерес / способность отсутствуют, тогда гораздо сложнее применить знания предметной области.
Медоуарк Брэдшер
7
@DarenW: Тенденция также отражена в названии: «Машинное обучение» с коннотацией, которую машина изучает ... сама по себе ... просто копать необработанные данные. Сравните менее гламурное имя (но более точное ИМО), выбранное Хасти, Тибширани и др. «Статистическое обучение». Разные коннотации, разные объяснения, все ссылаются на статистические принципы.
Асад Эбрахим
11

Вот несколько вещей, которые выделяют вас из толпы:

  • Понять домен приложения или домены. То есть бизнес-среда или другой контекст.
  • Понять общую картину. Это очень важно! Люди, которые изучают машинное обучение, часто теряются в деталях. Подумайте об общей картине, в которую будут вписываться ваши модели ML. Часто часть ML представляет собой небольшой сегмент гораздо большей системы. Понять всю систему.
  • Изучите теорию полезности и принятия решений и байесовский вывод, а не только то, что сейчас считается «обычными» моделями ML. Байесовский умозаключение - это всего лишь способ формализовать идею использования всей контекстуальной информации для решения проблемы. Теория полезности и принятия решений - это привнесение ценностей в картину.

Общее сообщение, которое относится ко всем трем пунктам: посмотрите на общую картину, не теряйтесь в деталях.

Роберт Додье
источник
4

Умение, которое отличает одного майнера данных от других, - это способность интерпретировать модели машинного обучения. Большинство строит машину, сообщает об ошибке и затем останавливается. Каковы математические отношения между функциями? Являются ли эффекты аддитивными или не аддитивными или и тем, и другим? Есть ли какие-либо особенности не имеют отношения? Ожидается ли машина в соответствии с нулевой гипотезой, что в данных присутствуют только случайные паттерны? Обобщает ли модель независимые данные? Что эти модели означают для изучаемой проблемы? Какие выводы? Какие идеи? Почему эксперт по домену должен волноваться? Приведет ли машина к тому, чтобы эксперт по области задавал новые вопросы и разрабатывал новые эксперименты? Может ли майнер данных эффективно сообщить модель и ее последствия для мира?

Джейсон Мур
источник
8
+1 Согласен - хотя то, что вы описываете, называется статистикой.
Томас Шпайдель
4

Я бы выдвинул понятие «мягкие навыки».

  • признание того, кто является «экспертом» для метода X, и возможность использовать их знания (вы не должны или не должны знать все о чем-либо). Способность и желание сотрудничать с другими.

  • способность переводить или представлять «реальный мир» с помощью математики, используемой в ОД.

  • способность по-разному объяснять свои методы разной аудитории - зная, когда следует сосредоточиться на деталях, а когда отступить и посмотреть в более широком контексте.

  • системное мышление, способность видеть, как ваша роль влияет на другие сферы бизнеса и как эти области влияют на вашу работу.

  • понимание и понимание неопределенности и наличие некоторых структурированных методов для ее устранения. Умение четко заявить, каковы ваши предположения.

probabilityislogic
источник
4

Умение хорошо обобщать

Это суть хорошей модели. И это суть того, что отличает лучших практиков искусства машинного обучения от толпы.

Понимание того, что цель состоит в том, чтобы оптимизировать производительность на невидимых данных, а не минимизировать потери при обучении. Знание того, как избежать как переоснащения, так и несоответствия. Придумать модели, которые не слишком сложны, но не слишком просты в описании проблемы. Извлечение сути тренировочного набора, а не максимально возможного.

Удивительно, как часто даже опытные специалисты по машинному обучению не следуют этому принципу. Одна из причин заключается в том, что люди не могут оценить две огромные разницы между теорией и практикой :

  • Насколько больше пространство всех возможных примеров по сравнению с имеющимися данными обучения, даже если данные обучения очень велики.
  • Насколько больше полное «пространство гипотез» : количество возможных моделей для проблемы по сравнению с практическим «пространством решений»: все, что вы можете придумать, и все, что ваши программы / инструменты способны представить.

N2N2N

Это также то, что большинство из приведенных выше ответов сказано более конкретными и конкретными способами. обобщать хорошо - это просто кратчайший путь, который я мог придумать.

arielf
источник
2

Я вижу, что есть две части при работе с машинным обучением на практике

  1. Инжиниринг (который охватывает все алгоритмы, изучение различных пакетов, программирование).

  2. Любопытство / Рассуждение (умение задавать более качественные вопросы данным).

Я думаю, что «любопытство / рассуждение» - это умение, которое отличает одного от других. Например, если вы видите списки лидеров завершений kaggle, многие люди могли использовать общие (схожие) алгоритмы, в чем разница, как логически подвергать сомнению данные и формулировать их.

Chitrasen
источник