Мой вопрос исходит из следующего факта. Я читал посты, блоги, лекции, а также книги по машинному обучению. У меня сложилось впечатление, что специалисты по машинному обучению кажутся безразличными ко многим вещам, которые волнуют статистиков / эконометрики. В частности, практики машинного обучения подчеркивают точность прогноза, а не умозаключения.
Один такой пример произошел, когда я брал у Эндрю Нг машинное обучение на Coursera. Обсуждая Простую Линейную Модель, он ничего не упоминал о СИНЕМ свойстве оценок или о том, как гетероскедастичность «аннулирует» доверительный интервал. Вместо этого он фокусируется на реализации градиентного спуска и концепции перекрестной проверки / кривой ROC. Эти темы не освещались в моих классах по эконометрике и статистике.
Другой пример произошел, когда я участвовал в соревнованиях Kaggle. Я читал чужой код и мысли. Большая часть участников просто бросает все в SVM / random forest / XGBoost.
Еще один пример - пошаговый выбор модели. Эта техника широко используется, по крайней мере, онлайн и на Kaggle. Об этом также рассказывают многие классические учебники по машинному обучению, такие как Введение в статистическое обучение. Однако, согласно этому ответу (что вполне убедительно), поэтапный выбор модели сталкивается с множеством проблем, особенно когда дело доходит до «обнаружения истинной модели». Кажется, что есть только две возможности: либо специалисты по машинному обучению не знают проблемы с пошаговым, либо они знают, но им все равно.
Итак, вот мои вопросы:
- Правда ли, что (в общем) практики машинного обучения фокусируются на прогнозировании и, следовательно, не заботятся о многих вещах, которые волнуют статистиков / экономистов?
- Если это правда, то в чем причина? Не потому ли, что в каком-то смысле вывод сложнее?
- Есть много материалов по машинному обучению (или прогнозированию) онлайн. Однако, если я заинтересован в том, чтобы узнать о том, как делать выводы, с какими онлайн-ресурсами я могу ознакомиться?
Обновление : я только что понял, что слово «вывод» потенциально может означать много вещей. То, что я имел в виду под «выводом», относится к таким вопросам, как
Ли причиной или причиной ? Или, в целом, каковы причинно-следственные связи между ?
Поскольку «все модели не правы», насколько «не прав» наша модель от настоящей модели?
Учитывая информацию выборки, что мы можем сказать о населении и насколько уверенно мы можем это сказать?
Из-за моего очень ограниченного знания статистики, я даже не уверен, попадают ли эти вопросы в область статистики или нет. Но это те вопросы, которые практикующим машинному обучению, похоже, не нужны. Возможно, статистикам пофиг ни того, ни другого? Я не знаю.
fortunes
пакета на CRAN. Это просто сказать, что вы не одиноки с Впечатлением, что математическая строгость не всегда является главной проблемой в машинном обучении.Ответы:
Во-первых, у меня была бы другая перспектива для машинного обучения. То, что вы упомянули, лекция Эндрю Нга Coursera и конкурс Kaggle - это не 100% машинное обучение, а некоторые отрасли, ориентированные на практическое применение. Реальное исследование машинного обучения должно быть работой, которая изобретает модель случайного леса / SVM / повышения градиента, которая довольно близка к статистике / математике.
Я бы согласился, что специалисты по машинному обучению уделяют больше внимания точности по сравнению со статистиками / экономистами. Есть причины, по которым люди заинтересованы в получении большей точности, а не в «выводе об истинном распределении». Основная причина заключается в том, что методы сбора и использования данных изменились за последние десятилетия.
Статистика была создана за сто лет, но в прошлом никто не думал о том, что у вас есть миллиарды данных для обучения и другие миллиарды данных для тестирования. (Например, количество изображений в интернете). Следовательно, при относительно небольшом объеме данных для выполнения работы необходимы предположения из области знаний. Или вы можете подумать о «регуляризации» модели. После того, как были сделаны предположения, возникли проблемы с «истинным» распределением.
Однако, если мы тщательно об этом подумаем, можем ли мы удостовериться, что эти предположения верны, и выводы верны? Я хотел бы привести слова Джорджа Бокса:
Теперь давайте вернемся к практическому подходу, чтобы сделать больший упор на точность, чем предположение / умозаключение. Это хороший подход, когда у нас огромное количество данных.
Предположим, мы строим модель для всех изображений, содержащих человеческие лица на уровне пикселей. Во-первых, очень трудно предложить допущения на уровне пикселей для миллиарда изображений: никто не обладает знаниями в этой области. Во-вторых, мы можем подумать обо всех возможных способах подгонки данных, и поскольку данные огромны, всех имеющихся у нас моделей может быть недостаточно (их почти невозможно переопределить).
Именно поэтому «глубокое обучение / нейронная сеть» снова стали популярными. В условиях больших данных мы можем выбрать одну действительно сложную модель и подобрать ее как можно лучше, и у нас все еще может быть все в порядке, потому что наши вычислительные ресурсы ограничены по сравнению со всеми реальными данными в слове.
Наконец, если построенная нами модель хороша в огромном наборе данных тестирования, то они хороши и ценны, хотя мы можем не знать допущения подчеркивания или истинного распределения.
Я хочу отметить, что слово «вывод» имеет разные значения в разных сообществах.
Таким образом, вы можете видеть, по сути, многие люди в машинном обучении также делают «выводы».
Кроме того, вы также можете подумать о людях в академических кругах, которым нравится «переименовывать свою работу и перепродавать»: придумывание новых терминов может быть полезным для демонстрации новизны исследования. На самом деле, существует много совпадений между искусственным интеллектом, интеллектуальным анализом данных и машинным обучением. И они тесно связаны со статистикой и дизайном алгоритмов. Опять же, нет никаких четких границ для того, чтобы делать «вывод» или нет.
источник