В недавнем коллоквиуме реферат спикера утверждал, что они использовали машинное обучение. Во время беседы единственное, что связано с машинным обучением, было то, что они выполняют линейную регрессию на своих данных. После расчета коэффициентов наилучшего соответствия в пространстве параметров 5D они сравнили эти коэффициенты в одной системе с коэффициентами наилучшего соответствия других систем.
Когда линейное регрессионное машинное обучение , в отличие от простого нахождения наиболее подходящей линии? (Было ли введение исследователя в заблуждение?)
Несмотря на то, что машинное обучение привлекает все больше внимания в последнее время, представляется важным сделать такие различия.
Мой вопрос похож на этот , за исключением того, что этот вопрос требует определения «линейной регрессии», тогда как мой спрашивает, когда линейную регрессию (которая имеет широкое применение) можно соответствующим образом назвать «машинным обучением».
Разъяснения
Я не спрашиваю, когда линейная регрессия совпадает с машинным обучением. Как уже отмечалось, один алгоритм не является областью исследований. Я спрашиваю, когда правильно сказать, что кто-то занимается машинным обучением, когда используемый алгоритм - это просто линейная регрессия.
Все шутки в стороне (см. Комментарии), одна из причин, по которой я спрашиваю об этом, состоит в том, что неэтично говорить, что кто-то занимается машинным обучением, чтобы добавить несколько золотых звезд к вашему имени, если они на самом деле не занимаются машинным обучением. (Многие ученые вычислить некоторый тип наилучшего соответствия линии для своей работы, но это не означает , что они делают машинное обучение.) С другой стороны, существуют ситуации , когда четко линейная регрессия в настоящее время используется как часть машинного обучения. Я ищу экспертов, которые помогут мне классифицировать эти ситуации. ;-)
Ответы:
Отвечая на ваш вопрос вопросом: что такое машинное обучение? Тревор Хасти, Роберт Тибширани и Джером Фридман в «Элементах статистического обучения» , Кевин П. Мерфи в машинном обучении с вероятностной точки зрения , Кристофер Бишоп в распознавании образов и машинном обучении , Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвилль в области глубокого обучения и ряд других другие «библии» машинного обучения упоминают линейную регрессию как один из «алгоритмов» машинного обучения. Машинное обучение отчасти является модным словом для прикладной статистики, и различие между статистикой и машинным обучением часто размыто.
источник
Линейная регрессия - это определенно алгоритм, который можно использовать в машинном обучении. Но сокращение до абсурда : любой, у кого есть копия Excel, может соответствовать линейной модели.
Даже ограничивая себя линейными моделями, при обсуждении машинного обучения необходимо учесть еще несколько вещей:
Короткий ответ, с моей точки зрения, заключается в том, что в тех случаях, когда машинное обучение отличается от традиционного статистического моделирования, применяется грубая сила и численный подход к выбору модели, особенно в областях с большим объемом данных и большим количеством объясняющих переменных. с акцентом на предсказательную силу, за которой следует более грубая сила для валидации модели.
источник
Я думаю, что определение Митчелла предоставляет полезный способ обосновать обсуждение машинного обучения, своего рода первый принцип. Как воспроизведено в Википедии :
Это полезно несколькими способами. Во-первых, к вашему непосредственному вопросу: регрессия - это машинное обучение, когда ее задача состоит в том, чтобы предоставить оценочное значение из прогнозирующих функций в некоторых приложениях. Его производительность должна улучшиться, если измерять среднеквадратичную (или абсолютную и т. Д.) Погрешность, так как он получает больше данных.
Во-вторых, это помогает отделить машинное обучение от связанных терминов и использовать его в качестве маркетингового модного слова. Сравните приведенную выше задачу со стандартной логической регрессией, в которой аналитик интерпретирует коэффициенты для значимых отношений. Здесь программа возвращает сводку: коэффициенты, p-значения и т. Д. Нельзя сказать, что программа улучшает эту производительность с опытом; Задача сложного расчета.
Наконец, это помогает объединить подполя машинного обучения, как те, которые обычно используются во вводной экспозиции (под наблюдением, без присмотра) с другими, такими как обучение с подкреплением или оценка плотности. (У каждого есть задача, показатель эффективности и концепция опыта, если вы думаете о них достаточно.) Я думаю, что это дает более богатое определение, которое помогает разграничить два поля без ненужного сокращения одного из них. В качестве примера, «ML предназначен для прогнозирования, статистика для вывода» игнорирует как методы машинного обучения вне контролируемого обучения, так и статистические методы, которые фокусируются на прогнозировании.
источник
Нет закона, который гласит, что столяр не может использовать пилу производителя.
Машинное обучение и статистика - это неопределенные ярлыки, но если они четко определены, между статистикой и машинным обучением много общего. И это касается методов этих двух областей, а также (и отдельно) для людей, которые маркируют себя этими двумя областями. Но что касается математики, машинное обучение полностью относится к области статистики.
Линейная регрессия является очень хорошо определенной математической процедурой. Я склонен связывать это с областью статистики и людьми, которые называют себя «статистиками» и теми, кто выходит из академических программ с такими ярлыками, как «статистика». SVM (Машины опорных векторов) также является очень четко определенной математической процедурой, которая имеет несколько одинаковых входов и выходов и решает аналогичные проблемы. Но я склонен связывать это, однако, с областью машинного обучения и людьми, которые называют себя компьютерными учеными или людьми, которые работают в области искусственного интеллекта или машинного обучения, которые, как правило, считаются частью компьютерных наук как дисциплины.
Но некоторые статистики могут использовать SVM, а некоторые специалисты по ИИ используют логистическую регрессию. Просто чтобы быть ясным, более вероятно, что статистик или исследователь ИИ разработает метод, чем фактически использует его на практике.
Я поместил все методы машинного обучения прямо в область статистики. Даже такие недавние вещи, как Deep Learning, RNN, CNN, LSTM, CRF. Прикладной статистик (биостатист, агроном) вполне может быть не знаком с ними. Это все методы прогнозного моделирования, которые обычно обозначаются как «машинное обучение» и редко связаны со статистикой. Но они являются прогностическими моделями с учетом того, что о них можно судить, используя статистические методы.
В конце концов, логистическая регрессия должна рассматриваться как часть машинного обучения.
Но да, я вижу и часто разделяю ваше отвращение к неправильному применению этих слов. Линейная регрессия является настолько фундаментальной частью вещей, называемых статистикой, что кажется очень странным и вводящим в заблуждение называть ее использование «машинным обучением» .
Чтобы проиллюстрировать это, логистическая регрессия математически идентична сети глубокого обучения без скрытых узлов и логистической функции в качестве функции активации для одного выходного узла. Я бы не назвал логистическую регрессию методом машинного обучения, но он, безусловно, используется в контексте машинного обучения.
Это в основном вопрос ожидания.
Это все равно, что сказать, когда вы моете окно водой, что вы используете квантовую химию. Ну да, конечно, это не технически неправильно, но вы подразумеваете гораздо больше, чем нужно.
Но на самом деле, это именно культурная разница по сравнению с вещественной. Коннотации слова и ассоциации с группами людей (LR - полностью не ML!) Против математики и приложений (LR - полностью ML!).
источник
Общее мнение состоит в том, что машинное обучение состоит из 4 областей:
1) Уменьшение размерности
2) кластеризация
3) Классификация
4) Регрессия
Линейная регрессия - это регрессия. После того, как модель обучена, ее можно использовать для прогнозов, как и любую другую, скажем, регрессию случайных лесов.
источник
Линейная регрессия - это техника, а машинное обучение - это цель, которую можно достичь с помощью различных средств и методов.
Таким образом, производительность регрессии измеряется тем, насколько близко она соответствует ожидаемой линии / кривой, а машинное обучение измеряется тем, насколько хорошо оно может решить определенную проблему любыми необходимыми средствами.
источник
Я буду утверждать, что различие между машинным обучением и статистическим выводом ясно. Короче говоря, машинное обучение = прогноз будущих наблюдений; статистика = объяснение.
Вот пример из моей области интересов (медицина): при разработке лекарства мы ищем ген (ы), который лучше всего объясняет болезненное состояние, с целью нацеливания его / их с помощью препарата. Мы используем statistis для этого. Напротив, при разработке диагностических тестов, например, для прогнозирования того, поможет ли лекарство пациенту, цель состоит в том, чтобы строго найти лучшего предиктора будущего результата, даже если он содержит много генов и слишком сложен для понимания. Мы используем машинное обучение для этой цели. Существует множество опубликованных примеров [1], [2], [3], [4], показывающих, что наличие лекарственного препарата-мишени не является хорошим предиктором результата лечения, отсюда и различие.
Исходя из этого, было бы справедливо сказать, что человек делает машинное обучение, когда цель строго предсказывает результат будущих / ранее невидимых наблюдений. Если целью является понимание определенного явления, то это статистический вывод, а не машинное обучение. Как уже отмечали другие, это верно независимо от используемого метода.
Чтобы ответить на ваш вопрос: в конкретном исследовании, которое вы описываете, ученые сравнивали роли факторов (веса) в различных моделях линейной регрессии, а не сравнивали точность моделей. Поэтому не стоит называть их вывод машинным обучением.
[1] Messersmith WA, Ahnen DJ. Таргетирование EGFR при колоректальном раке. Медицинский журнал Новой Англии; 2008; 359; 17.
[2] Pogue-Geile KL et al. Прогнозирование степени выгоды от адъювантного трастузумаба в испытании NSABP B-31. J Natl Cancer Inst; 2013; 105: 1782-1788.
[3] Паздур Р. Утверждение FDA для Вемурафениба. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Обновлено 3 июля 2013 г.
[4] Рэй Т. Два исследования ASCO показывают проблему использования передачи сигналов MET в качестве прогностического маркера в испытаниях лекарств NSCLC. GenomeWeb, 11 июня 2014 г.
источник
Может быть полезно назвать машинное обучение линейной регрессией, потому что это обычно подразумевает пару важных вещей о том, как вы решили свою проблему:
Однако, если ваша модель больше предназначена для объяснения, чем для предсказания, и вы тщательно проверяете теоретические предположения причинно-следственной связи вашей модели и т. Д., То да, называть это машинным обучением довольно глупо.
источник
Следует признать, что любой ответ на этот вопрос является скорее мнением, чем объективным фактом, но я постараюсь изложить свою логику, почему я думаю, что ответ никогда не будет . Любой так называемый эксперт по машинному обучению или инструктор только показывает свое невежество, представляя линейную регрессию как таковую.
Разграничение академических дисциплин - это скорее разграничение сообществ, чем методов. Научные дисциплины постоянно используют разные методы. Кроме того, в 19 веке (когда была разработана линейная регрессия) и до этого научные дисциплины не были так четко очерчены, как сегодня. Поэтому, особенно когда методы были разработаны в 19 веке или ранее, мы должны быть осторожны, чтобы назначить их для конкретной дисциплины.
При этом можно посмотреть на историю дисциплины и сделать разумный вывод, что определенные методы «принадлежат» к той или иной дисциплине. Сегодня никто не скажет, что исчисление относится к области физики, хотя Ньютон, который был одним из изобретателей исчисления, определенно пытался применить это к физике. Исчисление явно относится к дисциплине математики, а не физики. Это потому, что исчисление является общим математическим методом, который может использоваться полностью вне физических контекстов.
По тем же причинам линейная регрессия относится к дисциплине статистики, хотя она обычно используется в качестве простого примера подгонки данных к модели в контексте машинного обучения. Так же, как исчисление может использоваться вне контекста физики, линейная регрессия может (и используется) вне контекста машинного обучения.
Инструкторам по машинному обучению было бы целесообразно указать, что линейная регрессия используется с конца 19-го века, задолго до появления современного понятия о машинном обучении. Они также должны подчеркнуть, что в машинном обучении используются многие понятия из вероятности и статистики, а также из других дисциплин (например, теория информации). Однако сами эти понятия не представляют машинное обучение или «алгоритм» машинного обучения.
источник
Это Машина, Глупый!
Я не статистик и не эксперт по Big Data (TM). Однако я бы сказал, что существенным отличием является то, что для «машинного обучения» требуется «машина». В частности, это подразумевает агентство . Результат не будет потребляться человеком неторопливо. Скорее, результатом будет ввод в замкнутый цикл, в результате чего автоматизированная система повышает свою производительность.
Закрытая система
Это очень соответствует ответу Шона Пасхи, но я просто хочу подчеркнуть, что в коммерческих приложениях машина смотрит на результаты и воздействует на них . Классическим примером является алгоритм CineMatch, ставший целью премии Netflix. Человек может посмотреть на результаты CineMatch и узнать интересные функции о зрителях фильмов. Но это не то, почему это существует. Цель CineMatch - предоставить механизм, с помощью которого серверы Netflix могут предлагать клиентам фильмы, которые им понравятся. Вывод статистической модели идет в службу рекомендаций, которая в конечном итоге дает больше информации, поскольку клиенты оценивают фильмы, некоторые из которых были выбраны по рекомендации CineMatch.
Открытая система
С другой стороны, если исследователь использует алгоритм для получения статистических результатов, которые отображаются в презентации для других людей, то этот исследователь определенно не занимается машинным обучением . Это совершенно очевидно для меня, человеческое обучение . Анализ выполняется машиной, но сама по себе она не занимается обучением . Теперь это «машинное обучение» в той степени, в которой человеческий мозг не испытал все входные данные выборки и вывел статистические результаты «биологически». Но я бы назвал это «статистикой», потому что это именно то, что статистики делают с момента изобретения поля.
Заключение
Таким образом, я бы ответил на этот вопрос, спросив: «Кто потребляет результаты?» Если ответ: «люди», то это «статистика». Если ответ: «программное обеспечение», то это «машинное обучение». И когда мы говорим, что «программное обеспечение потребляет результаты», мы не имеем в виду, что оно хранит его где-то для последующего поиска. Мы имеем в виду, что он выполняет поведение, которое определяется результатами в замкнутом цикле .
источник
По моему мнению, можно говорить о машинном обучении, когда машина запрограммирована на вывод параметров некоторой модели с использованием некоторых данных.
Если линейная регрессия выполняется машиной, она квалифицируется.
Если сделано вручную, то это не так.
Определения, которые зависят от распространенности какого-либо агента (например, Excel) или итеративного улучшения (как Шон Пасхер предлагает выше), каким-то образом пытаясь моему мнению, отделить его от статистики или зависеть от того, что делать с результатами , окажутся непоследовательными.
источник