Когда линейную регрессию следует называть «машинным обучением»?

90

В недавнем коллоквиуме реферат спикера утверждал, что они использовали машинное обучение. Во время беседы единственное, что связано с машинным обучением, было то, что они выполняют линейную регрессию на своих данных. После расчета коэффициентов наилучшего соответствия в пространстве параметров 5D они сравнили эти коэффициенты в одной системе с коэффициентами наилучшего соответствия других систем.

Когда линейное регрессионное машинное обучение , в отличие от простого нахождения наиболее подходящей линии? (Было ли введение исследователя в заблуждение?)

Несмотря на то, что машинное обучение привлекает все больше внимания в последнее время, представляется важным сделать такие различия.

Мой вопрос похож на этот , за исключением того, что этот вопрос требует определения «линейной регрессии», тогда как мой спрашивает, когда линейную регрессию (которая имеет широкое применение) можно соответствующим образом назвать «машинным обучением».

Разъяснения

Я не спрашиваю, когда линейная регрессия совпадает с машинным обучением. Как уже отмечалось, один алгоритм не является областью исследований. Я спрашиваю, когда правильно сказать, что кто-то занимается машинным обучением, когда используемый алгоритм - это просто линейная регрессия.

Все шутки в стороне (см. Комментарии), одна из причин, по которой я спрашиваю об этом, состоит в том, что неэтично говорить, что кто-то занимается машинным обучением, чтобы добавить несколько золотых звезд к вашему имени, если они на самом деле не занимаются машинным обучением. (Многие ученые вычислить некоторый тип наилучшего соответствия линии для своей работы, но это не означает , что они делают машинное обучение.) С другой стороны, существуют ситуации , когда четко линейная регрессия в настоящее время используется как часть машинного обучения. Я ищу экспертов, которые помогут мне классифицировать эти ситуации. ;-)

jvriesem
источник
13
Может быть, вы хотите увидеть ветку: « Две культуры: статистика против машинного обучения? ».
usεr11852 говорит восстановить Monic
75
Вы должны переименовать свою регрессию как «машинное обучение», когда хотите удвоить плату за свою учетную карту.
Восстановить Монику
3
Есть разница. Обучение - это процесс. Лучшая подгонка - это цель. Смотрите мой ответ ниже. Честно говоря, слова не имеют одинакового значения, хотя они могут встречаться в одном и том же контексте, например «птицы летают», их можно связать, но птицы не являются полетом, и хотя полет для птиц, он для F -18 истребителей тоже.
Карл
20
@Sycorax и глубокое обучение, когда вы хотите вчетверо
Франк Дернонкур
11
@FranckDernoncourt «Я ученый данных, использующий глубокое обучение в среде больших данных для решения задач машинного обучения», звучит как хороший заголовок для профиля LinkedIn;)
Тим

Ответы:

78

Отвечая на ваш вопрос вопросом: что такое машинное обучение? Тревор Хасти, Роберт Тибширани и Джером Фридман в «Элементах статистического обучения» , Кевин П. Мерфи в машинном обучении с вероятностной точки зрения , Кристофер Бишоп в распознавании образов и машинном обучении , Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвилль в области глубокого обучения и ряд других другие «библии» машинного обучения упоминают линейную регрессию как один из «алгоритмов» машинного обучения. Машинное обучение отчасти является модным словом для прикладной статистики, и различие между статистикой и машинным обучением часто размыто.

Тим
источник
4
Верно, но они в значительной степени представляют собой разрозненные дисциплины с большим количеством непересекающейся литературы, методов и алгоритмов. Например, в современном мире машинного обучения, данные и компьютерные науки намного опережают кандидатов в области статистики с точки зрения финансирования, грантов и рабочих мест, как вы это называете.
Майк Хантер
6
@DJohnson, так что применяется статистика с новым пакетом, проданным по более высокой цене ..? Я не думаю, что тот факт, что это модно, не делает это модным словом. Байесовская статистика также имеет свои собственные методы, журналы, конференции, справочники и приложения, которые частично не пересекаются с классической статистикой - делает ли это дисциплиной, отличной от статистики?
Тим
3
Ага. Я не стал настаивать на своем наблюдении за практиками ОД с более общим наблюдением, согласно которому разрозненные, узко сфокусированные практики являются эндемичными для каждой области и профессии, а не только для МЛ. Это своего рода профессиональная угроза - читай, человеческие ошибки - что люди становятся слепыми к информации, находящейся вне их насущных потребностей и интересов. Резюме не является исключением из этого.
Майк Хантер
23
(+1) Я согласен, что нет четкого различия. В той степени, в которой я думаю о различиях, я бы обычно думал, что ML больше касается предсказаний , а статистика - как вывод параметров (например, экспериментальный дизайн для моделирования поверхности отклика не будет типичным для ML?). Таким образом, в этом смысле пример OP - где коэффициенты регрессии, по-видимому, вызывают наибольшее беспокойство - был бы более «статистическим» (?)
GeoMatt22
3
См. Также Две культуры Лео Бреймана, которые сходны с точкой зрения @ GeoMatt22: ML фокусируется на точном прогнозировании. Является ли модель верной, не важно. Классическая статистика ищет «истинную» модель, в некотором смысле, или, по крайней мере, модель, которая дает некоторое представление о процессах, которые произвели данные.
Питер
41

Линейная регрессия - это определенно алгоритм, который можно использовать в машинном обучении. Но сокращение до абсурда : любой, у кого есть копия Excel, может соответствовать линейной модели.

Даже ограничивая себя линейными моделями, при обсуждении машинного обучения необходимо учесть еще несколько вещей:

  • Машинное обучение по бизнес-задачам может включать в себя гораздо больше данных. « Большие данные », если вы хотите использовать модное слово. Очистка и подготовка данных могут потребовать больше работы, чем фактическое моделирование. И когда объем данных превышает способность одной машины обрабатывать его, тогда технические проблемы так же важны, как и статистические. (Практическое правило: если оно помещается в основную память, это не большие данные).
  • Машинное обучение часто включает в себя гораздо больше объяснительных переменных (функций), чем традиционные статистические модели. Возможно, десятки, иногда даже сотни, некоторые из которых будут категориальными переменными со многими уровнями. Когда эти функции могут потенциально взаимодействовать (например, в модели перекрестных эффектов), число потенциальных моделей, которые можно подобрать, быстро растет.
  • Специалист по машинному обучению, как правило, меньше заботится о значимости отдельных функций и больше заботится о том, чтобы выжать из модели как можно больше предсказательной силы, используя любую комбинацию функций, которая это делает. (P-значения связаны с объяснением, а не предсказанием.)
  • Благодаря большому количеству функций и различным способам их конструирования выбор модели вручную становится невозможным. На мой взгляд, реальная проблема в машинном обучении - это автоматический выбор функций (разработка функций) и другие аспекты спецификации модели. В линейной модели есть различные способы сделать это, обычно варианты грубой силы; в том числе пошаговая регрессия, обратная ликвидация и т. д., и все это снова требует значительной вычислительной мощности. (Второе правило: если вы выбираете функции вручную, вы делаете статистику, а не машинное обучение).
  • Когда вы автоматически подгоняете многие модели со многими функциями, переоснащение является серьезной потенциальной проблемой. Решение этой проблемы часто включает некоторую форму перекрестной проверки : то есть, еще более грубое вычисление силы!

Короткий ответ, с моей точки зрения, заключается в том, что в тех случаях, когда машинное обучение отличается от традиционного статистического моделирования, применяется грубая сила и численный подход к выбору модели, особенно в областях с большим объемом данных и большим количеством объясняющих переменных. с акцентом на предсказательную силу, за которой следует более грубая сила для валидации модели.

david25272
источник
2
Мне вообще нравится это различие. Однако используется ли когда-либо перекрестная проверка в «статистических» моделях или это редко требуется, поскольку они обычно выполняются вручную? Рассматривается ли при проектировании функций статистика, как это делается вручную?
Джош
3
@ Джош, да, это может быть. Но если вы посмотрите на тег перекрестной проверки, почти все вопросы касаются прогнозного моделирования.
david25272
@ david25272 Мне было бы интересно узнать, что вы думаете о начальной загрузке, 0,632+ начальной загрузке и тестах перестановки - я всегда считал их более «прикладной статистикой», чем «машинным обучением», потому что они мотивированы, но они аналогично "грубой силе" к к-сгибу или кросс-валидации с пропуском к-аута. Я думаю, что регуляризация L1 также может рассматриваться как тип выбора признаков в статистической структуре ...
Патрик Б.
@Patrick stats.stackexchange.com/questions/18348 - лучший ответ об использовании начальной загрузки для проверки модели, чем я мог бы дать.
david25272
@ david25272 ах, извините, мой вопрос был больше о том, думаете ли вы о них как о методах «машинного обучения» или «прикладной статистики», так как они являются статистически мотивированными, но также и «грубой силой». Я знаком с использованием корректирующих смещения загрузчиков для проверки модели.
Патрик Б.
14

Я думаю, что определение Митчелла предоставляет полезный способ обосновать обсуждение машинного обучения, своего рода первый принцип. Как воспроизведено в Википедии :

Говорят, что компьютерная программа извлекает уроки из опыта E в отношении некоторого класса задач T и показателя эффективности P, если ее эффективность при выполнении задач в T, измеряемая P, улучшается с опытом E.

Это полезно несколькими способами. Во-первых, к вашему непосредственному вопросу: регрессия - это машинное обучение, когда ее задача состоит в том, чтобы предоставить оценочное значение из прогнозирующих функций в некоторых приложениях. Его производительность должна улучшиться, если измерять среднеквадратичную (или абсолютную и т. Д.) Погрешность, так как он получает больше данных.

Во-вторых, это помогает отделить машинное обучение от связанных терминов и использовать его в качестве маркетингового модного слова. Сравните приведенную выше задачу со стандартной логической регрессией, в которой аналитик интерпретирует коэффициенты для значимых отношений. Здесь программа возвращает сводку: коэффициенты, p-значения и т. Д. Нельзя сказать, что программа улучшает эту производительность с опытом; Задача сложного расчета.

Наконец, это помогает объединить подполя машинного обучения, как те, которые обычно используются во вводной экспозиции (под наблюдением, без присмотра) с другими, такими как обучение с подкреплением или оценка плотности. (У каждого есть задача, показатель эффективности и концепция опыта, если вы думаете о них достаточно.) Я думаю, что это дает более богатое определение, которое помогает разграничить два поля без ненужного сокращения одного из них. В качестве примера, «ML предназначен для прогнозирования, статистика для вывода» игнорирует как методы машинного обучения вне контролируемого обучения, так и статистические методы, которые фокусируются на прогнозировании.

Шон Пасха
источник
12

Нет закона, который гласит, что столяр не может использовать пилу производителя.

Машинное обучение и статистика - это неопределенные ярлыки, но если они четко определены, между статистикой и машинным обучением много общего. И это касается методов этих двух областей, а также (и отдельно) для людей, которые маркируют себя этими двумя областями. Но что касается математики, машинное обучение полностью относится к области статистики.

Линейная регрессия является очень хорошо определенной математической процедурой. Я склонен связывать это с областью статистики и людьми, которые называют себя «статистиками» и теми, кто выходит из академических программ с такими ярлыками, как «статистика». SVM (Машины опорных векторов) также является очень четко определенной математической процедурой, которая имеет несколько одинаковых входов и выходов и решает аналогичные проблемы. Но я склонен связывать это, однако, с областью машинного обучения и людьми, которые называют себя компьютерными учеными или людьми, которые работают в области искусственного интеллекта или машинного обучения, которые, как правило, считаются частью компьютерных наук как дисциплины.

Но некоторые статистики могут использовать SVM, а некоторые специалисты по ИИ используют логистическую регрессию. Просто чтобы быть ясным, более вероятно, что статистик или исследователь ИИ разработает метод, чем фактически использует его на практике.

Я поместил все методы машинного обучения прямо в область статистики. Даже такие недавние вещи, как Deep Learning, RNN, CNN, LSTM, CRF. Прикладной статистик (биостатист, агроном) вполне может быть не знаком с ними. Это все методы прогнозного моделирования, которые обычно обозначаются как «машинное обучение» и редко связаны со статистикой. Но они являются прогностическими моделями с учетом того, что о них можно судить, используя статистические методы.

В конце концов, логистическая регрессия должна рассматриваться как часть машинного обучения.

Но да, я вижу и часто разделяю ваше отвращение к неправильному применению этих слов. Линейная регрессия является настолько фундаментальной частью вещей, называемых статистикой, что кажется очень странным и вводящим в заблуждение называть ее использование «машинным обучением» .

Чтобы проиллюстрировать это, логистическая регрессия математически идентична сети глубокого обучения без скрытых узлов и логистической функции в качестве функции активации для одного выходного узла. Я бы не назвал логистическую регрессию методом машинного обучения, но он, безусловно, используется в контексте машинного обучения.

Это в основном вопрос ожидания.

A: «Я использовал машинное обучение, чтобы предсказать повторную госпитализацию после операции на сердце».

B: "О, да? Глубокое обучение? Случайные леса? !!?"

A: «О, нет, ничего более необычного, просто логистическая регрессия».

Б: очень разочарованный взгляд .

Это все равно, что сказать, когда вы моете окно водой, что вы используете квантовую химию. Ну да, конечно, это не технически неправильно, но вы подразумеваете гораздо больше, чем нужно.

Но на самом деле, это именно культурная разница по сравнению с вещественной. Коннотации слова и ассоциации с группами людей (LR - полностью не ML!) Против математики и приложений (LR - полностью ML!).

Митч
источник
3
Логистическая регрессия также очень похожа, как практически, так и теоретически, на SVM: web.stanford.edu/~hastie/Papers/svmtalk.pdf
Патрик Б.
3

Общее мнение состоит в том, что машинное обучение состоит из 4 областей:

1) Уменьшение размерности

2) кластеризация

3) Классификация

4) Регрессия

Линейная регрессия - это регрессия. После того, как модель обучена, ее можно использовать для прогнозов, как и любую другую, скажем, регрессию случайных лесов.

Akavall
источник
На самом деле есть разница, хотя линейная регрессия может быть решена с помощью машинного обучения. Обычной целью регрессии являются обычные наименьшие квадраты, что означает, что наша целевая функция потерь, сумма квадратов невязок, должна быть минимизирована. Теперь машинное обучение будет просто ссылаться на тот метод, с помощью которого мы минимизируем функцию потерь.
Карл
Таким образом, концептуально, линейная регрессия посредством градиентного спуска (обучение) выбирает лучшие и лучшие суммы квадратов невязки (функция потерь). Основные понятия те же, что и для гораздо более сложных алгоритмов обучения, таких как нейронные сети. Эти алгоритмы просто заменяют линейную модель гораздо более сложной моделью и, соответственно, гораздо более сложной функцией стоимости. ,
Карл
1
Таким образом, ответ на вопрос OP Когда линейное регрессионное машинное обучение, в отличие от простого нахождения наиболее подходящей линии? Когда линейная регрессия выполняется с использованием определяемого элемента машинного обучения, такого как градиентный спуск , тогда это линейная регрессия, выполняемая с использованием машинного обучения.
Карл
5
@Carl, проблема здесь, что "машинное обучение" определено. Для меня, если мы можем использовать статистическую модель, и эта модель будет иметь возможность предсказать, что это машинное обучение. И не имеет значения, какой подход использовался для нахождения коэффициентов модели.
Akavall
1
Я нашел ответ Акавалла довольно ясным. Я полагаю, что проблема Акавалла в том, что представленное вами определение является круговым, потому что оно, кажется, сводится к «Вопросу: когда техника X считается« машинным обучением »? (К сожалению, я не понимаю второй момент, который вы высказываете, поэтому я не могу ответить на это.)
Патрик Б.
2

Линейная регрессия - это техника, а машинное обучение - это цель, которую можно достичь с помощью различных средств и методов.

Таким образом, производительность регрессии измеряется тем, насколько близко она соответствует ожидаемой линии / кривой, а машинное обучение измеряется тем, насколько хорошо оно может решить определенную проблему любыми необходимыми средствами.

HopefullyHelpful
источник
2

Я буду утверждать, что различие между машинным обучением и статистическим выводом ясно. Короче говоря, машинное обучение = прогноз будущих наблюдений; статистика = объяснение.

Вот пример из моей области интересов (медицина): при разработке лекарства мы ищем ген (ы), который лучше всего объясняет болезненное состояние, с целью нацеливания его / их с помощью препарата. Мы используем statistis для этого. Напротив, при разработке диагностических тестов, например, для прогнозирования того, поможет ли лекарство пациенту, цель состоит в том, чтобы строго найти лучшего предиктора будущего результата, даже если он содержит много генов и слишком сложен для понимания. Мы используем машинное обучение для этой цели. Существует множество опубликованных примеров [1], [2], [3], [4], показывающих, что наличие лекарственного препарата-мишени не является хорошим предиктором результата лечения, отсюда и различие.

Исходя из этого, было бы справедливо сказать, что человек делает машинное обучение, когда цель строго предсказывает результат будущих / ранее невидимых наблюдений. Если целью является понимание определенного явления, то это статистический вывод, а не машинное обучение. Как уже отмечали другие, это верно независимо от используемого метода.

Чтобы ответить на ваш вопрос: в конкретном исследовании, которое вы описываете, ученые сравнивали роли факторов (веса) в различных моделях линейной регрессии, а не сравнивали точность моделей. Поэтому не стоит называть их вывод машинным обучением.

[1] Messersmith WA, Ahnen DJ. Таргетирование EGFR при колоректальном раке. Медицинский журнал Новой Англии; 2008; 359; 17.

[2] Pogue-Geile KL et al. Прогнозирование степени выгоды от адъювантного трастузумаба в испытании NSABP B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.

[3] Паздур Р. Утверждение FDA для Вемурафениба. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Обновлено 3 июля 2013 г.

[4] Рэй Т. Два исследования ASCO показывают проблему использования передачи сигналов MET в качестве прогностического маркера в испытаниях лекарств NSCLC. GenomeWeb, 11 июня 2014 г.

любомир
источник
7
Я согласен, что в исследованиях по машинному обучению гораздо больше внимания уделяется прогнозам, чем оценке параметров. Но это не четкая разделительная линия: статистические исследования богаты прогностическими методами.
Клифф AB
4
Так что насчет статистиков, которые делали прогнозы до появления компьютеров (или были широко доступны)? Они применяли машинное обучение с помощью бумаги и карандаша ?!
Тим
1
@Tim: очень хороший аргумент. Я полагаю, что ответ «да», если бы они были сосредоточены на будущих наблюдениях, хотя я признаю, что в этих (редких) случаях название статистического обучения было бы более уместным. С появлением компьютеров термин «машинное обучение» стал более модным. Дело не в имени и не в использовании компьютеров; это ясность цели. На мой взгляд, практически невозможно успешно оптимизировать как точное предсказание ранее не замеченных наблюдений, так и понимание явления. Лучше сосредоточиться соответственно.
Любомир
4
Прогнозирование временных рядов (прогнозирование будущих наблюдений) долгое время было популярной проблемой в статистике (и эконометрике), поэтому я не согласен с четким различием, основанным на этом.
Ричард Харди
1
Этот ответ является поддельным. Прогнозирование - это лишь небольшая часть машинного обучения. Статистики тоже делают прогнозы. Хотя трудно провести различие между машинным обучением и статистикой, но это определенно не правильный путь.
Робиннес
2

Может быть полезно назвать машинное обучение линейной регрессией, потому что это обычно подразумевает пару важных вещей о том, как вы решили свою проблему:

  1. Вы решили, что нет необходимости проверять причинные предположения и предшествующую теорию за вашими объяснительными переменными. Это говорит о том, что ваша модель предназначена не для объяснения, а для прогнозирования. Это вполне разумно для многих параметров, например, для прогнозирования спама в электронной почте на основе ключевых слов. На самом деле не так много литературы, в которой слова предсказывают спам, и так много слов, что не имеет смысла продумывать теоретическую значимость каждого слова.
  2. Вы не проверяли значимость переменной и не использовали значения p, но вместо этого, скорее всего, выбрали набор задержек или перекрестную проверку для оценки эффективности прогнозирования вне выборки. Это может быть совершенно справедливо, если - возвращаясь к примеру спама в электронной почте - если действительно все, что вас волнует, - это создание модели, которая эффективно предсказывает спам, даже если это происходит за счет включения переменных, которые могут не пройти традиционные тесты значимости.

Однако, если ваша модель больше предназначена для объяснения, чем для предсказания, и вы тщательно проверяете теоретические предположения причинно-следственной связи вашей модели и т. Д., То да, называть это машинным обучением довольно глупо.

Райан Зотти
источник
2

Следует признать, что любой ответ на этот вопрос является скорее мнением, чем объективным фактом, но я постараюсь изложить свою логику, почему я думаю, что ответ никогда не будет . Любой так называемый эксперт по машинному обучению или инструктор только показывает свое невежество, представляя линейную регрессию как таковую.

Разграничение академических дисциплин - это скорее разграничение сообществ, чем методов. Научные дисциплины постоянно используют разные методы. Кроме того, в 19 веке (когда была разработана линейная регрессия) и до этого научные дисциплины не были так четко очерчены, как сегодня. Поэтому, особенно когда методы были разработаны в 19 веке или ранее, мы должны быть осторожны, чтобы назначить их для конкретной дисциплины.

При этом можно посмотреть на историю дисциплины и сделать разумный вывод, что определенные методы «принадлежат» к той или иной дисциплине. Сегодня никто не скажет, что исчисление относится к области физики, хотя Ньютон, который был одним из изобретателей исчисления, определенно пытался применить это к физике. Исчисление явно относится к дисциплине математики, а не физики. Это потому, что исчисление является общим математическим методом, который может использоваться полностью вне физических контекстов.

По тем же причинам линейная регрессия относится к дисциплине статистики, хотя она обычно используется в качестве простого примера подгонки данных к модели в контексте машинного обучения. Так же, как исчисление может использоваться вне контекста физики, линейная регрессия может (и используется) вне контекста машинного обучения.

Инструкторам по машинному обучению было бы целесообразно указать, что линейная регрессия используется с конца 19-го века, задолго до появления современного понятия о машинном обучении. Они также должны подчеркнуть, что в машинном обучении используются многие понятия из вероятности и статистики, а также из других дисциплин (например, теория информации). Однако сами эти понятия не представляют машинное обучение или «алгоритм» машинного обучения.

robguinness
источник
1

Это Машина, Глупый!

Я не статистик и не эксперт по Big Data (TM). Однако я бы сказал, что существенным отличием является то, что для «машинного обучения» требуется «машина». В частности, это подразумевает агентство . Результат не будет потребляться человеком неторопливо. Скорее, результатом будет ввод в замкнутый цикл, в результате чего автоматизированная система повышает свою производительность.

Закрытая система

Это очень соответствует ответу Шона Пасхи, но я просто хочу подчеркнуть, что в коммерческих приложениях машина смотрит на результаты и воздействует на них . Классическим примером является алгоритм CineMatch, ставший целью премии Netflix. Человек может посмотреть на результаты CineMatch и узнать интересные функции о зрителях фильмов. Но это не то, почему это существует. Цель CineMatch - предоставить механизм, с помощью которого серверы Netflix могут предлагать клиентам фильмы, которые им понравятся. Вывод статистической модели идет в службу рекомендаций, которая в конечном итоге дает больше информации, поскольку клиенты оценивают фильмы, некоторые из которых были выбраны по рекомендации CineMatch.

Открытая система

С другой стороны, если исследователь использует алгоритм для получения статистических результатов, которые отображаются в презентации для других людей, то этот исследователь определенно не занимается машинным обучением . Это совершенно очевидно для меня, человеческое обучение . Анализ выполняется машиной, но сама по себе она не занимается обучением . Теперь это «машинное обучение» в той степени, в которой человеческий мозг не испытал все входные данные выборки и вывел статистические результаты «биологически». Но я бы назвал это «статистикой», потому что это именно то, что статистики делают с момента изобретения поля.

Заключение

Таким образом, я бы ответил на этот вопрос, спросив: «Кто потребляет результаты?» Если ответ: «люди», то это «статистика». Если ответ: «программное обеспечение», то это «машинное обучение». И когда мы говорим, что «программное обеспечение потребляет результаты», мы не имеем в виду, что оно хранит его где-то для последующего поиска. Мы имеем в виду, что он выполняет поведение, которое определяется результатами в замкнутом цикле .

Газонокосилка человек
источник
8
Это разумный момент, но я думаю, что на практике модели ML часто передаются людям для интерпретации и работы.
gung - Восстановить Монику
1
Я бы сказал, что это потому, что ML как поле породило множество полезных инструментов, используемых статистиками , даже если это не то, что они хотят назвать сами для маркетинговых целей. ;)
Газонокосилка Man
Я полностью согласен с @gung; Подобно другим ответам, я согласен, что это чаще всего мотивация для людей, которые называют себя «исследователями ML», это определенно не определяющая черта. Два встречных примера: рекомендательные системы считаются областью исследований ML, но результаты передаются непосредственно человеку. Фильтры Калмана очень часто используются в навигации для автопилота без участия человека в цикле, но обычно считаются методологией статистики.
Клифф А.Б.
-1

По моему мнению, можно говорить о машинном обучении, когда машина запрограммирована на вывод параметров некоторой модели с использованием некоторых данных.

Если линейная регрессия выполняется машиной, она квалифицируется.

Если сделано вручную, то это не так.

Определения, которые зависят от распространенности какого-либо агента (например, Excel) или итеративного улучшения (как Шон Пасхер предлагает выше), каким-то образом пытаясь моему мнению, отделить его от статистики или зависеть от того, что делать с результатами , окажутся непоследовательными.

Ицен де Бур
источник
3
Таким образом, если вы вычислите регрессию, или kNN, или дерево решений, используя бумагу и карандаш, и получите те же результаты, что и вычисленные на компьютере, то в первом случае это будет машинное обучение, а во втором нет ..? С другой стороны, если вы используете компьютер для случайного присвоения некоторых значений в качестве «параметров» вашей модели, то вы бы квалифицировали его как машинное обучение, поскольку оно было сделано машиной? Это определение, кажется, не имеет большого смысла ...
Тим
Вы не можете назвать это машинным обучением, если вы не используете машину. Это машина, которая учится, в конце концов. И я фактически развернул модели, которые «изучали» свои параметры случайным (Монте-Карло) процессом. Тем не менее, я должен признать, что после этого был этап проверки.
Ицен де Бур
2
Алгоритмы как опорные векторы машина называется «машина» по историческим причинам, так как в первые дни люди должны строить реальные машины / компьютеры для запуска их ( stats.stackexchange.com/questions/261041/... ), это не имеет никакого отношения к делать с «алгоритмами, которые запускаются на машинах». Кроме того, модель временных рядов , как ARIMA является не в рамках машинного обучения, но статистических данных, и они будут работать на компьютерах.
Тим