Две культуры: статистика против машинного обучения?

420

В прошлом году я прочитал запись в блоге Брендана О'Коннора под названием «Статистика против машинного обучения, сражайтесь!» что обсудили некоторые различия между этими двумя областями. Эндрю Гельман положительно отреагировал на это :

Саймон Бломберг:

Из пакета R's fortunes: перефразирующе: «машинное обучение - это статистика без всякой проверки моделей и предположений». - Брайан Д. Рипли (о разнице между машинным обучением и статистикой) useR! 2004, Вена (май 2004) :-) Поздравления с сезоном!

Эндрю Гельман:

В этом случае, возможно, нам следует чаще избавляться от проверки моделей и предположений. Тогда, возможно, мы сможем решить некоторые проблемы, которые могут решить люди, обучающиеся машинному обучению, но мы не можем!

Была также статья «Статистическое моделирование: две культуры» Лео Бреймана в 2001 году, в которой утверждалось, что статистики слишком сильно полагаются на моделирование данных, и что методы машинного обучения добиваются прогресса, вместо этого полагаясь на точность прогнозирования моделей.

Изменилось ли поле статистики за последнее десятилетие в ответ на эту критику? Эти две культуры все еще существуют, или статистика выросла, чтобы охватить методы машинного обучения, такие как нейронные сети и опорные векторные машины?

Шейн
источник
21
Спасибо @robin; сделал CW. Хотя я не совсем вижу это как «аргументированный»; Есть две области, которые информировали друг друга (это факт), и вопрос в том, насколько они эволюционировали вместе за последнее десятилетие.
Шейн
16
Добавьте третью культуру: интеллектуальный анализ данных . Ученики машин и майнеры говорят на разных языках. Обычно обучающиеся на машинах даже не понимают, что отличается в интеллектуальном анализе данных. Для них это просто обучение без присмотра; они игнорируют аспекты управления данными и применить умное слово интеллектуального анализа данных для машинного обучения, тоже, добавляя далее к путанице.
Anony-Mousse
4
Есть похожий вопрос по
сбору
2
Интересная дискуссия в блоге Вассермана .
2
Мне кажется, что на самом деле связь между ОД и статистикой недостаточно подчеркивается. Многие студенты CS игнорируют какие-либо знания о статистике в течение их основополагающих дней, потому что они не понимают критической важности обоснованной статистики, основанной на выполнении задач ML. Может быть, даже многие отделы CS по всему миру будут действовать медленно. Это было бы очень дорогой ошибкой, и я, конечно, надеюсь, что есть больше понимания о важности знания статистики в CS. В основном ML = статистика во многих смыслах.
xji

Ответы:

195

Я думаю, что ответ на ваш первый вопрос просто утвердительный. Возьмите любой выпуск Статистической Науки, JASA, Летописи Статистики за последние 10 лет, и вы найдете статьи по бустингу, SVM и нейронным сетям, хотя эта область сейчас менее активна. Статистики присвоили работу Валианта и Вапника, но с другой стороны, ученые-компьютерщики впитали работу Донохо и Талагранда. Я не думаю, что есть большая разница в области применения и методах. Я никогда не покупал аргумент Бреймана о том, что люди из CS были заинтересованы только в том, чтобы минимизировать потери, используя все, что работает. На это мнение сильно повлияло его участие в конференциях Нейронных сетей и его консультационная работа; но PAC, SVMs, Boosting имеют все прочные основы. И сегодня, в отличие от 2001 года, Статистика больше заботится о свойствах конечных выборок,

Но я думаю, что есть еще три важных отличия, которые не исчезнут в ближайшее время.

  1. Документы по методологической статистике по-прежнему в значительной степени формальны и дедуктивны, тогда как исследователи машинного обучения более терпимы к новым подходам, даже если к ним не прилагаются доказательства;
  2. Сообщество ML главным образом делится новыми результатами и публикациями на конференциях и связанных с ними заседаниях, тогда как статистики используют журнальные статьи. Это замедляет прогресс в статистике и идентификации звездных исследователей. У Джона Лэнгфорда есть хорошая публикация на эту тему некоторое время назад;
  3. Статистика по-прежнему охватывает области, которые (на данный момент) мало интересны для ОД, такие как дизайн обследования, выборка, статистика промышленности и т. Д.
с промежутками
источник
20
Отличный пост! Обратите внимание, что Вапник имеет докторскую степень в области статистики. Я не уверен, что есть много компьютерных ученых, которые знают имя Талагранд, и я уверен, что 0,01% из них могут указать по памяти один результат талагранда :), не так ли? Я не знаю работу Valiant :)
Робин Жирар
Я вижу разные ответы, когда дело доходит до научных исследований и приложений. Я думаю, что вы ответили в контексте первого. В приложениях я думаю, что самое большое различие заключается в способе расширения полей. ML через канал data science принимает буквально всех, кто умеет писать код. В статистике вам все еще нужна формальная степень в статистике или рядом с полями для ввода рабочей силы.
Аксакал
1
Как выборка для обследования, так и для статистики промышленности представляют собой многомиллиардные месторождения (раздел «Методы исследования обследования» Американской статистической ассоциации является третьим по величине после биометрии и консалтинга, и в него также входит большое количество отраслевых статистиков. Существует отдельный раздел о качестве). и есть еще отдельный материал Six-Sigma и другие методы контроля качества, не все из них полностью в статистике). Оба испытывают острую нехватку статистиков, поскольку нынешняя рабочая сила бэби-бумеров, пришедших на работу в эти области в 1960-х годах, выходит на пенсию.
StasK
4
В то время как некоторые люди получают свою работу, позируя на красной дорожке на конференциях, другие находят свою работу, применяя методы в реальном мире. Последние люди не имеют , что большой интерес к идентификации звезд любого вида; они бы скорее идентифицировали методы, которые работают, хотя во многих случаях после нескольких лет работы в данной области вас снова и снова приводят к одним и тем же именам.
StasK
Почему отбор проб не имеет значения для ОД? Разве это не похоже на проблему наличия правильной маркированной обучающей информации в ОД?
Геррит
169

Самое большое различие, которое я вижу между сообществами, состоит в том, что статистика подчеркивает умозаключения, тогда как машинное обучение подчеркивает предсказание. Когда вы ведете статистику, вы хотите определить процесс, с помощью которого ваши данные были сгенерированы. Когда вы занимаетесь машинным обучением, вы хотите знать, как можно предсказать, как будут выглядеть будущие данные с некоторой переменной.

Конечно, два перекрываются. Знание того, как были сгенерированы данные, даст вам некоторые подсказки о том, каким, например, будет хороший предиктор. Тем не менее, один из примеров различий заключается в том, что машинное обучение решает проблему p >> n (больше возможностей / переменных, чем обучающих выборок) с самого младенчества, тогда как статистика только начинает серьезно относиться к этой проблеме. Почему? Потому что вы все еще можете делать хорошие прогнозы, когда p >> n, но вы не можете сделать очень хорошие выводы о том, какие переменные действительно важны и почему.

dsimcha
источник
13
Может ли это быть (чрезмерно) упрощено как нечто вроде различия между порождающими и дискриминационными моделями?
Уэйн
5
«Нужно решить проблему [классификации] напрямую и никогда не решать более общую проблему в качестве промежуточного шага ...» - Вапник
Уэйн
3
@mbq: Я не имел в виду, что никакой вывод не может быть сделан, просто это не главная цель, и это обычно в ML, что делает его намного сложнее.
dsimcha
2
Я категорически не согласен с этим мнением. Это выглядит неправильно. Такие вещи, как повторяющиеся нейронные сети, также пытаются выводить процессы и даже генерировать новые последовательности.
пещерный человек
2
Так что насчет робототехники? Вероятностная робототехника в значительной степени ориентирована на умозаключения и довольно доминирует в приложениях. Но все же другой «вкус», чем статистика (и больше инженерных по сравнению с машиной / обучением; т.е. анализ / контроль в реальном времени)
GeoMatt22
135

Байесовский: «Привет, машинный ученик!»

Частый участник: «Привет, машинный ученик!»

Машинное обучение: «Я слышал, что вы, ребята, хорошо разбираетесь в вещах. Вот некоторые данные».

F: «Да, давайте запишем модель и затем вычислим MLE».

Б: «Эй, Ф, это не то, что вы сказали мне вчера! У меня были некоторые одномерные данные, и я хотел оценить дисперсию, и я рассчитал MLE. Затем вы набросились на меня и сказали мне делить на вместо поn1n «.

Ф: «Ах, да, спасибо, что напомнили мне. Я часто думаю, что я должен использовать MLE для всего, но меня интересуют объективные оценки и так далее».

М.Л .: «А что это за философствование? Поможет ли это мне?»

F: «Хорошо, оценщик - это черный ящик, вы вводите данные, и он дает вам некоторые цифры. Нам, частым лицам, не важно, как был построен ящик, какие принципы использовались для его проектирования. Например, я не знаю, как получить правило . "÷(n1)

МЛ: «Итак, что тебя волнует?»

F: «Оценка».

МЛ: «Мне нравится, как это звучит».

F: «Черный ящик - это черный ящик. Если кто-то утверждает, что конкретный оценщик является непредвзятым оценщиком для , то мы, в свою очередь, пробуем много значений , генерируем много выборок из каждого на основе некоторой предполагаемой модели, проталкиваем их через оценщик, и найдите среднее оценочное значение . Если мы можем доказать, что ожидаемая оценка равна истинному значению для всех значений, то мы говорим, что оно объективно ".θθθ

МЛ: «Звучит великолепно! Похоже, что частые люди - прагматичные люди. Вы судите о каждом черном ящике по его результатам. Оценка является ключевой».

F: «Действительно! Я понимаю, что вы, ребята, придерживаетесь подобного подхода. Перекрестная проверка или что-то в этом роде?

МЛ: "Грязный?"

F: «Идея проверки вашей оценки на реальных данных мне кажется опасной. Используемые вами эмпирические данные могут иметь всевозможные проблемы и могут не вести себя в соответствии с моделью, которую мы согласовали для оценки».

МЛ: «Что? Я думал, ты сказал, что доказал некоторые результаты? Что твой оценщик всегда будет беспристрастным, для всех ".θ

Ф: «Да. Хотя ваш метод мог работать с одним набором данных (набором данных с данными о поездах и тестах), который вы использовали при оценке, я могу доказать, что мой метод всегда будет работать».

МЛ: "Для всех наборов данных?"

F: "Нет"

МЛ: «Значит, мой метод прошел перекрестную проверку на одном наборе данных. Вы не проверяли свой метод ни на одном реальном наборе данных?»

F: "Это верно."

МЛ: «Тогда я становлюсь лидером! Мой метод лучше, чем ваш. Он предсказывает рак в 90% случаев. Ваши« доказательства »действительны только в том случае, если весь набор данных ведет себя в соответствии с предполагаемой моделью».

F: "Эмм, да, я полагаю."

ML: "И этот интервал имеет 95% охват . Но я не должен удивляться, если он содержит только правильное значение 20% времени?"θ

F: «Это верно. Если данные не являются действительно нормальными (или что-то еще), мои доказательства бесполезны».

МЛ: «Итак, моя оценка более надежна и всесторонняя? Она работает только с наборами данных, которые я пробовал до сих пор, но, по крайней мере, это настоящие наборы данных, бородавки и все такое. Вы пытались утверждать, что вы более« консервативны » 'и' тщательно 'и что вы были заинтересованы в проверке моделей и прочем. "

Б: (вставляет) «Эй, ребята, извините, что прерываю. Я хотел бы вмешаться и уравновесить ситуацию, возможно, продемонстрировать некоторые другие проблемы, но я действительно люблю наблюдать за тем, как мой частый коллега корчится».

F: "Вау!"

МЛ: «Хорошо, дети. Все было связано с оценкой. Оценщик - это черный ящик. Данные поступают, данные поступают. Мы одобряем или не одобряем оценщик на основе того, как он работает при оценке. Нам все равно о «рецепте» или «принципах дизайна», которые используются ».

Ф: «Да. Но у нас совершенно разные представления о том, какие оценки важны. ML проведет тренинг и тестирование на реальных данных. Принимая во внимание, что я сделаю оценку, которая носит более общий характер (поскольку включает широко применимые доказательства), и также более ограниченный (потому что я не знаю, действительно ли ваш набор данных взят из предположений моделирования, которые я использую при разработке своей оценки.) "

МЛ: «Какую оценку ты используешь, Б?»

Ф: (вставляет) «Эй. Не смеши меня. Он ничего не оценивает. Он просто использует свои субъективные убеждения и работает с этим. Или с чем-то».

Б: «Это обычная интерпретация. Но также возможно определить байесовский характер по предпочтительным оценкам. Тогда мы можем использовать идею, что никому из нас не важно, что находится в черном ящике, мы заботимся только о разных способах оценки».

Б продолжает: «Классический пример: медицинский тест. Результат анализа крови положительный или отрицательный. Частых людей будет интересовать, здоровых людей, в какой пропорции получен отрицательный результат. И аналогично, какая доля больных людей будет получите положительный результат. Специалист по частям рассчитает их для каждого рассматриваемого метода анализа крови, а затем порекомендует использовать тест, получивший наилучшую пару баллов ».

F: "Точно. Что еще ты хочешь?"

Б: «А как насчет тех людей, которые получили положительный результат теста? Они захотят узнать,« кто из них получит положительный результат, сколько заболеет? » и «Из тех, кто получает отрицательный результат, сколько здоровых?» "

МЛ: «Ах, да, кажется, лучше задать пару вопросов».

F: "HERESY!"

Б: «Мы снова здесь. Ему не нравится, куда это идет».

М.Л .: «Это касается« приоры », не так ли?»

F: «ЗЛО».

Б: «В любом случае, да, вы правы. ML. Чтобы рассчитать долю людей с положительным результатом, которые больны, вы должны сделать одну из двух вещей. Один из вариантов - запустить тесты на большом количестве людей и просто наблюдать за соответствующие пропорции. Сколько из этих людей умирает, например, от этой болезни ".

МЛ: «Это звучит как то, что я делаю. Используйте тренировку и тестирование».

Б: «Но вы можете рассчитать эти цифры заранее, если вы хотите сделать предположение о степени заболеваемости среди населения. Частый пациент также делает свои расчеты заранее, но без использования этого показателя заболеваемости на уровне населения».

F: «БОЛЬШЕ НЕОБХОДИМОГО ПОЛОЖЕНИЯ».

Б: «О, заткнись. Раньше тебя об этом узнали. ML обнаружил, что ты так же любишь необоснованные предположения, как и все остальные. Твои« проверенные »вероятности покрытия не будут складываться в реальном мире, если все твои предположения не подтвердятся. Почему моё предыдущее предположение столь расплывчато? Ты называешь меня сумасшедшим, но при этом притворяешься, что твои предположения - работа консервативного, основательного анализа без предположений ».

Б (продолжает): «Во всяком случае, МЛ, как я уже говорил. Байесовцам нравится другой вид оценки. Мы больше заинтересованы в том, чтобы обусловливать наблюдаемые данные и соответствующим образом вычислять точность нашей оценки. Мы не можем выполнить эту оценку без использования до. Но интересно то, что, как только мы определились с этой формой оценки, и как только мы выбрали нашу предварительную оценку, у нас есть автоматический «рецепт» для создания соответствующей оценки. У часто встречающегося такой рецепт нет. Если он хочет беспристрастный оценщик для сложной модели, у него нет никакого автоматизированного способа построить подходящую оценку ".

МЛ: «А вы? Вы можете автоматически построить оценщик?»

Б: «Да. У меня нет автоматического способа создания объективной оценки, потому что я думаю, что смещение - это плохой способ оценки оценки. Но, учитывая оценку условных данных, которая мне нравится, и ранее, я Можно связать предыдущее и вероятность дать мне оценку ".

МЛ: «В любом случае, давайте подведем итоги. У всех нас есть разные способы оценки наших методов, и мы, вероятно, никогда не договоримся о том, какие методы лучше».

Б: «Ну, это несправедливо. Мы могли бы смешивать и сопоставлять их. Если у кого-то из нас есть хорошие данные о тренировках с маркировкой, мы, вероятно, должны проверить их. И, как правило, все мы должны проверить как можно больше предположений. И некоторые« частые » «Доказательства тоже могут быть забавными, предсказывая производительность при некоторой предполагаемой модели генерации данных».

F: «Да, ребята. Давайте прагматично оценивать. И на самом деле, я перестану зацикливаться на свойствах бесконечного образца. Я просил ученых дать мне бесконечный образец, но они все еще не сделали этого. время снова сосредоточиться на конечных сэмплах ".

МЛ: «Итак, у нас только один последний вопрос. Мы много спорили о том, как оценивать наши методы, но как мы создаем наши методы».

Б: «Ах. Как я уже говорил ранее, у нас, байесов, есть более мощный общий метод. Он может быть сложным, но мы всегда можем написать какой-то алгоритм (возможно, наивную форму MCMC), который будет производить выборку из нашего апостериорного значения. "

F (вставляет): «Но это может иметь смещение».

Б: «Так могут и ваши методы. Нужно ли напоминать вам, что MLE часто бывает предвзятым? Иногда у вас возникают большие трудности с поиском непредвзятых оценок, и даже когда у вас есть глупая оценка (для какой-то действительно сложной модели), которая скажет: Дисперсия отрицательна. И вы называете это беспристрастным. Беспристрастным, да. Но полезным, нет!

МЛ: «Хорошо, ребята. Вы снова разглагольствуете. Позвольте мне задать вам вопрос, Ф. Вы когда-нибудь сравнивали смещение вашего метода с смещением метода Б, когда вы оба работали над одной и той же проблемой?»

Ф: «Да. На самом деле, мне неприятно это признавать, но подход Б иногда имеет меньший уклон и MSE, чем моя оценка!»

М.Л .: «Урок здесь в том, что, хотя мы немного не согласны с оценкой, ни у кого из нас нет монополии на то, как создать оценщик, обладающий желаемыми свойствами».

Б: «Да, нам следует больше читать работы друг друга. Мы можем вдохновлять друг друга на оценки. Мы можем обнаружить, что оценки других работают отлично, из коробки, над нашими собственными проблемами».

Ф: «И я должен прекратить зацикливаться на предвзятости. У объективной оценки может быть нелепая разница. Я полагаю, что все мы должны« взять на себя ответственность »за выбор, который мы делаем в том, как мы оцениваем, и свойства, которые мы хотим видеть в наших оценщиках». Мы не можем прятаться за философией. Попробуйте все возможные оценки. И я буду продолжать смотреть на байесовскую литературу, чтобы получить новые идеи для оценщиков! "

Б: «На самом деле, многие люди на самом деле не знают, какова их собственная философия. Я даже сам не уверен. Если я использую байесовский рецепт, а затем доказываю какой-то хороший теоретический результат, разве это не значит, что я Я частый человек? Частотик заботится о приведенных выше доказательствах производительности, он не заботится о рецептах. А если я вместо этого провожу какие-то тренировки и тесты, значит ли это, что я обучаюсь машинному делу? "

МЛ: «Кажется, мы все очень похожи».

Аарон МакДейд
источник
8
Для читателей, которые будут читать этот ответ до конца, я бы предложил добавить краткое сообщение на вынос (и предоставить соответствующую ссылку, если это применимо).
хл
Имея -2 голоса, я думаю, что я мало что могу сделать, чтобы спасти его :) Я думаю, что финал, где они все согласны друг с другом и признают, что они могут использовать методы друг друга, не беспокоясь о философии друг друга, является «сообщение на вынос».
Аарон МакДейд
10
Цитирование не требуется. Я только сделал это сам. Вероятно, он не очень хорошо информирован, он основан на моих собственных (неправильных) интерпретациях аргументов, которые я имел с небольшим количеством коллег за эти годы.
Аарон МакДейд
3
Я видел такой диалог (хотя и короче) в прошлом и считаю его интересным. Я также был обеспокоен отрицательными голосами, поэтому я предложил поместить краткое резюме вверху, чтобы мотивировать читателей прочитать остальную часть вашего поста.
Ч.л.
3
13/10 поспорил бы снова
410_Gone
67

В такой дискуссии я всегда вспоминаю знаменитую цитату Кена Томпсона

Если есть сомнения, используйте грубую силу.

В этом случае машинное обучение является спасением, когда предположения трудно уловить; или, по крайней мере, это намного лучше, чем угадывать их неправильно.


источник
2
В связи с возросшими вычислительными возможностями в эти годы, а также с автоматическими кодерами и связанными с ними методами, это стало еще более актуальным, чем когда-либо.
Firebug
Чтобы решить проблему, инженеры используют формулы, методы и процедуры, которые они использовали ранее, и уверены в их успехе. Обычно это называют «грубой силой» или «правилами большого пальца» ... новые формулы, методы и процедуры используются в пошаговом процессе ... Инженерная деятельность - это групповая деятельность, в которой инженеры, техники и рабочие работают вместе. Когда вводится новая процедура, требуется время, чтобы обучить техников и рабочих этой процедуре. Таким образом, модернизация вводится в эволюционный процесс.
b.sahu
64

Что обеспечивает большее разделение, чем должно быть, так это лексикон каждой дисциплины.

Есть много случаев, когда ML использует один термин, а статистика использует другой термин - но оба относятся к одному и тому же - хорошо, вы ожидаете этого, и это не вызывает постоянной путаницы (например, характеристики / атрибуты и ожидание) переменные, или нейронная сеть / MLP против проекции преследования).

Гораздо неприятнее то, что обе дисциплины используют один и тот же термин для обозначения совершенно разных концепций.

Несколько примеров:

Функция ядра

В ML функции ядра используются в классификаторах (например, SVM) и, конечно, в машинах ядра. Термин относится к простой функции ( косинус, сигмоидальный, rbf, полином ), которая отображает нелинейно разделимые на новое входное пространство, так что теперь данные могут быть линейно разделимыми в этом новом входном пространстве. (по сравнению с использованием нелинейной модели для начала).

В статистике ядро ​​является весовой функцией, используемой в оценке плотности для сглаживания кривой плотности.

регрессия

В ML, прогнозирующих алгоритмов или реализации этих алгоритмов , которые возвращают класса метки «классификаторов» являются (иногда) называют машины --eg, опорных векторов , ядро машины . Аналогом машин являются регрессоры , которые возвращают оценку (непрерывную переменную) - например, регрессию опорных векторов .

Редко, когда алгоритмы имеют разные имена в зависимости от режима - например, MLP - это термин, используемый независимо от того, возвращает ли он метку класса или непрерывную переменную.

В статистике регрессия , если вы пытаетесь построить модель на основе эмпирических данных, чтобы предсказать некоторую переменную ответа, основанную на одной или нескольких объясняющих переменных или нескольких переменных, - тогда вы проводите регрессионный анализ. Не имеет значения, является ли вывод непрерывной переменной или меткой класса (например, логистическая регрессия). Так, например, регрессия наименьших квадратов относится к модели, которая возвращает непрерывное значение; логистическая регрессия, с другой стороны, возвращает оценку вероятности, которая затем дискретизируется по меткам класса.

предвзятость

В ML термин смещения в алгоритме концептуально идентичен термину перехвата, используемому статистиками при регрессионном моделировании.

В статистике смещение является неслучайной ошибкой, т. Е. Какое-то явление повлияло на весь набор данных в одном и том же направлении, что, в свою очередь, означает, что такого рода ошибку нельзя устранить путем повторной выборки или увеличения размера выборки.

Дуг
источник
19
В статистике смещение не совпадает с ошибкой. Ошибка чисто случайная, смещения нет. У вас есть предвзятость, когда вы знаете, что ожидаемое значение вашей оценки не равно истинному значению.
Джорис Мейс
2
(@Joris Или даже если вы этого не знаете! Звучит банально, но просто выяснить, есть ли предвзятость, может быть серьезной практической проблемой. На основании одних данных вы можете быть уверены, что предполагаемый параметр регрессии свободен от пропущенной переменной смещение?) Распространенное заблуждение состоит в том, что смещение - это особенность данных, а не свойство оценщика; Интересно, связано ли это с нетехническим использованием, таким как «этот опрос необъективен!» Статистики также не всегда согласны с такими терминами, как «ошибка»: среднеквадратическая ошибка (оценки) включает компонент смещения в квадрате, поэтому «ошибка» не является «чисто случайной».
Серебряная рыба
2
Я думаю, что термин «машина» в SVM должен быть приписан личному вкусу Владимира Вапника. В настоящее время, я не думаю, что это не используется, чтобы назвать любой другой классификатор.
Илиасфль
3
Многие из них не соответствуют использованию, которое я видел в сообществе ML. Оба типа ядер широко используются (хотя ядра Гильбертова пространства встречаются чаще), «машина» в основном используется только для SVM (как отмечает iliasfl), а «смещение» обычно означает (возможно, обусловленный чем-то), что не то же самое, что перехват. E[X^X]
Дугал
1
Оператор «логистическая регрессия, с другой стороны, возвращает метки класса». неправильно. Логистическая регрессия возвращает значения в которые являются оценками вероятности принадлежности к классу, закодированному как . [0,1]1
random_guy
26

Самые большие различия, которые я заметил в прошлом году:

  • Специалисты по машинному обучению не уделяют достаточного количества времени основам, и многие из них не понимают оптимальных правил принятия решений и правильных правил оценки точности. Они не понимают, что методы прогнозирования, которые не делают никаких предположений, требуют больших размеров выборки, чем те, которые делают.
  • Мы, статистики, тратим слишком мало времени на изучение хорошей практики программирования и новых вычислительных языков. Мы слишком медленно меняемся, когда дело доходит до вычислений и принятия новых методов из статистической литературы.
Фрэнк Харрелл
источник
2
Другое замечание заключается в том, что мы, статистики, склонны ограничивать себя методами, которые мы можем доказать с помощью математики, которые будут хорошо работать (при ряде, возможно, нелепых предположений), особенно когда речь идет о публикациях. Люди, обучающиеся машинному обучению, очень рады использовать методы, которые эмпирически хорошо работают с несколькими наборами данных. В результате, я думаю, что литература о ML движется гораздо быстрее, но также требует большего отсеивания глупостей.
Клифф А.Б.
25

Машинное обучение, кажется, основано на прагматике - практическом наблюдении или симуляции реальности. Даже в рамках статистики бессмысленная «проверка моделей и предположений» может привести к отказу от полезных методов.

Например, несколько лет назад самая первая коммерчески доступная (и работающая) модель банкротства, реализованная кредитными бюро, была создана с помощью простой старой модели линейной регрессии, ориентированной на результат 0-1. Технически это плохой подход, но практически он сработал.

Джей Стивенс
источник
4
это похоже на использование гравитационных моделей планеты для городского движения. Я нахожу это абсурдом, но на самом деле он работает точно тихо
Дассуки
5
Меня интересует последнее утверждение: «Самая первая коммерчески доступная (и работающая) модель банкротства, реализованная кредитными бюро, была создана с помощью простой старой модели линейной регрессии, ориентированной на результат 0-1». Какая это была модель? Я считаю, что первой моделью был RiskCalc от Moody's, и даже первая версия была моделью логистической регрессии. Разработчиками этой модели были не люди из CS, имеющие опыт работы с ML, а скорее эконометрики.
gappy
2
Бьюсь об заклад, они использовали дискриминантный анализ до логистической регрессии, так как DA был изобретен задолго до LR
Нил Макгиган
1
@gappy Я думаю о модели банкротства потребителей MDS для отдельных записей кредитных бюро. RiskCalc был оценкой кредитного риска для компаний. Модель банкротства MDS отличалась от моделей риска FICO того времени тем, что целью было банкротство, а НЕ кредитная преступность (например, первоначальные оценки FICO). Мой комментарий был меньше о специфике ML в этом контексте (потому что она почти не использовалась - если вообще - в то время, когда модель BK была впервые построена), но была связана с тем фактом, что практическая эффективность вовсе не обязательно связана с теоретические ограничения или допущения нарушений.
Джей Стивенс
Просто любопытно, почему это был технически плохой подход, хотя. Потому что он сделал слишком много упрощающих предположений, которые бы сильно отличались от реальности?
xji
25

Я не согласен с этим вопросом, поскольку он говорит о том, что машинное обучение и статистика - это разные или противоречивые науки ... когда верно обратное!

машинное обучение широко использует статистику ... быстрый обзор любого пакета программного обеспечения для машинного обучения или интеллектуального анализа данных покажет методы кластеризации, такие как k-means, также встречающиеся в статистике .... также будут показаны методы уменьшения размерности, такие как анализ основных компонентов также статистический метод ... даже логистическая регрессия еще один.

На мой взгляд, основное отличие состоит в том, что традиционно статистика использовалась для доказательства заранее заданной теории, и обычно анализ строился вокруг этой основной теории. В тех случаях, когда при извлечении данных или машинном обучении противоположный подход обычно является нормой в том смысле, что у нас есть результат, мы просто хотим найти способ предсказать его, а не задавать вопрос или сформировать теорию, если это результат!

Mojo
источник
21

Я говорил об этом на другом форуме, в ASA Statistical Consulting eGroup. Мой ответ был более конкретным для интеллектуального анализа данных, но оба идут рука об руку. Мы, статистики, пренебрегали своими мыслями у майнеров, компьютерщиков и инженеров. Это неверно. Я думаю, что отчасти это происходит потому, что мы видим, что некоторые люди в этих областях игнорируют стохастический характер их проблемы. Некоторые статистики называют поиск данных отслеживанием или выловом данных. Некоторые люди злоупотребляют и злоупотребляют методами, но статистики отстают в интеллектуальном анализе данных и машинном обучении, потому что мы рисуем их широкой кистью. Некоторые из больших статистических результатов были получены за пределами области статистики. Повышение является одним из важных примеров. Но такие статистики, как Бриман, Фридман, Хасти, Тибширани, Эфрон, Гельман и другие получили его, и их руководство привлекло статистиков к анализу микрочипов и других масштабных задач вывода. Таким образом, в то время как культуры могут никогда не совпадать, в настоящее время существует более тесное сотрудничество и сотрудничество между учеными, инженерами и статистиками.

Майкл Черник
источник
19

Настоящая проблема в том, что этот вопрос ошибочен. Это не машинное обучение против статистики, это машинное обучение против реального научного прогресса. Если устройство машинного обучения дает правильные прогнозы в 90% случаев, но я не могу понять «почему», каков вклад машинного обучения в науку в целом? Представьте себе, если бы методы машинного обучения использовались для прогнозирования положения планет: было бы много самодовольных людей, думающих, что они могут точно предсказать множество вещей с помощью своих SVM, но что они действительно знают о проблеме, которую они имеют в своих руках ? Очевидно, что наука на самом деле не продвигается с помощью численных предсказаний, она продвигается с помощью моделей (ментальных, математических), которые позволяют нам видеть гораздо больше, чем просто числа.

user36080
источник
1
+1 Это напоминает мне об использовании моделей в экономике. Эконометрические модели созданы для нескольких целей; а именно, анализ политики и прогнозирование. В общем, никто не заботится о прогнозировании - важнее всего моделирование политики. Как говорил Дэвид Хендри, лучшая модель прогнозирования не обязательно является лучшей моделью для анализа политики - и наоборот. Нужно сделать шаг назад и подумать ... Какова цель модели? На какие вопросы мы пытаемся ответить? И как это согласуется с эмпирическими открытиями .
Грэм Уолш
18

Статистическое обучение (AKA Machine Learning) берет свое начало в стремлении создать программное обеспечение, «учась на примерах». Есть много задач, которые мы хотели бы, чтобы компьютеры выполняли (например, компьютерное зрение, распознавание речи, управление роботом), которые трудно программировать, но для которых легко привести примеры обучения. Сообщество исследователей машинного обучения / статистического обучения разработало алгоритмы для изучения функций на этих примерах. Функция потери обычно связана с заданием на выполнение (зрение, распознавание речи). И, конечно, у нас не было никаких оснований полагать, что в основе этих задач лежала простая «модель» (потому что в противном случае мы бы сами кодировали эту простую программу). Следовательно, сама идея делать статистический вывод не имела никакого смысла. Цель - точность прогнозирования и ничего более.

Со временем различные силы начали водить машинного обучения людей, чтобы больше узнать о статистике. Одной из них была необходимость включить базовые знания и другие ограничения в учебный процесс. Это побудило людей задуматься о генеративных вероятностных моделях, поскольку они позволяют легко включить предварительные знания в структуру модели и априорные параметры и параметры модели. Это привело к открытию богатой статистической литературы в этой области. Еще одной силой стало открытие феномена переоснащения. Это привело к тому, что сообщество ML узнало о перекрестной проверке и регуляризации, и мы снова обнаружили богатую статистическую литературу по этому вопросу.

Тем не менее, основная часть работы машинного обучения заключается в создании системы, которая демонстрирует определенную производительность, а не делает выводы о неизвестном процессе. Это принципиальная разница между ОД и статистикой.

Том Диттерих
источник
15

В идеале, прежде чем пытаться ответить на свой вопрос, нужно хорошо знать как статистику, так и машинное обучение. Я очень новичок в ML, поэтому простите меня, если я скажу, что это наивно.

У меня ограниченный опыт работы с SVM и деревьями регрессии. Что мне кажется недостаточным с точки зрения статистики, так это хорошо разработанная концепция вывода.

Вывод в ML, по-видимому, сводится почти исключительно к точности прогнозирования, измеряемой (например) средней ошибкой классификации (MCE) или сбалансированным коэффициентом ошибок (BER) или подобным. ML очень хорошо умеет случайным образом делить данные (обычно 2: 1) на тренировочный набор и тестовый набор. Модели подбираются с использованием тренировочного набора, а производительность (MCE, BER и т. Д.) Оценивается с использованием тестового набора. Это отличная практика, и она только постепенно входит в общую статистику.

ML также активно использует методы повторной выборки (особенно перекрестной проверки), происхождение которых, по-видимому, в статистике.

Тем не менее, в ML, похоже, отсутствует полностью разработанная концепция вывода - за пределы точности прогнозирования. Это имеет два результата.

1) Кажется, что нет признания, что любое предсказание (оценка параметров и т. Д.) Подвержено случайной ошибке и, возможно, системной ошибке (смещение). Статистики признают, что это неизбежная часть прогноза, и попытаются оценить ошибку. Статистические методы будут пытаться найти оценку, которая имеет минимальное смещение и случайную ошибку. Их методы обычно основаны на модели обработки данных, но не всегда (например, Bootstrap).

2) По-видимому, в ML не существует глубокого понимания ограничений применения модели к новым данным для новой выборки из той же группы населения (несмотря на то, что я говорил ранее о подходе с использованием набора данных для тренировочного теста). Различные статистические методы, среди которых термины перекрестной проверки и наказания, применяемые к методам, основанным на вероятности, помогают статистикам найти компромисс между скупостью и сложностью модели. Такие руководящие принципы в ML кажутся намного более специальными.

Я видел несколько статей в ML, где перекрестная проверка используется для оптимизации подгонки многих моделей в обучающий набор данных - производя лучшее и лучшее соответствие по мере увеличения сложности модели. Похоже, мало кто понимает, что крошечный выигрыш в точности не стоит дополнительной сложности, и это, естественно, приводит к чрезмерной подгонке. Затем все эти оптимизированные модели применяются к тестовому набору для проверки прогнозной производительности и предотвращения переоснащения. Две вещи были забыты (выше). Прогностическая эффективность будет иметь стохастическую составляющую. Во-вторых, множественные тесты с набором тестов снова приведут к переоснащению. «Лучшая» модель будет выбрана практикующим врачом без полной оценки, которую он / она выбрал из одной реализации многих возможных вариантов этого эксперимента.

Любые мои 2 цента стоят. Нам есть чему поучиться друг у друга.

Thylacoleo
источник
2
Ваш комментарий о «Лучшей» модели будет выбран специалистом по ОД ... в равной степени относится и к основной статистике. В большинстве процедур выбора модели просто задают условия для конечной модели, как если бы поиск пространства модели не проводился (учитывая, что усреднение модели является довольно новым). Так что я не думаю, что вы можете использовать это как «клуб», чтобы побить практикующего ML, так сказать.
probislogic
Как практикующий ML, я не узнаю картину, которую вы рисуете. В литературе по ML почти все о вариациях регуляризации, MDL, байесовском, SRM и других подходах к управлению сложностью модели. С того места, где я сижу, кажется, что методы управления сложностью stat менее структурированы, но для вас это предвзятость.
Мухаммед Алкарури
13

Этот вопрос также может быть распространен на так называемую суперкультуру науки о данных в 2015 году. Дэвид Донохо опубликовал статью 50 лет науки о данных , в которой он сталкивается с различными точками зрения со стороны статистики и информатики (включая машинное обучение), например, с прямых точек зрения (от разных лиц) такой что:

  • Зачем нам нужна наука о данных, когда у нас была статистика за столетия?
  • Наука о данных - это статистика.
  • Наука о данных без статистики возможна, даже желательна.
  • Статистика является наименее важной частью науки о данных.

и разбирается на исторические, философские соображения, например:

Поразительно, что, когда я рассматриваю презентацию о современной науке о данных, в которой статистике уделяется достаточно короткое внимание, я не могу не заметить, что основные инструменты, примеры и идеи, которые преподаются как наука о данных, были все буквально придуманный кем-то обученным в докторантуре статистику, и во многих случаях используемое программное обеспечение было разработано кем-то с магистром или доктором наук. в статистике. Накопленные усилия статистиков за столетия слишком велики, чтобы их можно было полностью скрыть, и их нельзя скрыть в преподавании, исследованиях и практических занятиях по науке о данных.

Это эссе вызвало множество откликов и вкладов в дебаты.

Лоран Дюваль
источник
3
Это похоже на статью, которую стоит упомянуть в этой недавней популярной теме stats.stackexchange.com/questions/195034 , я думаю, что никто не упомянул об этом там.
амеба
1
Я думаю, что если вы опубликуете новый ответ с кратким изложением этой статьи, это будет здорово.
амеба
Я буду и должен сначала обобщить все приведенные ответы для себя
Лоран Дюваль
12

Я на самом деле не знаю, в чем заключается концептуальная / историческая разница между машинным обучением и статистикой, но я уверен, что это не так очевидно ... и я не очень заинтересован в том, чтобы знать, являюсь ли я учеником машины или статистиком Спустя 10 лет после статьи Бреймана, многие люди оба ...

Во всяком случае, мне показался интересным вопрос о точности прогнозирования моделей . Мы должны помнить, что не всегда возможно измерить точность модели, и, точнее, мы чаще всего неявно выполняем моделирование при измерении ошибок.

Например, средняя абсолютная ошибка в прогнозе временных рядов является средним во времени, и она измеряет эффективность процедуры для прогнозирования медианы с предположением, что производительность в некотором смысле является стационарной и показывает некоторое эргодическое свойство. Если (по какой-то причине) вам необходимо спрогнозировать среднюю температуру на Земле на следующие 50 лет, и если ваше моделирование работает хорошо в течение последних 50 лет ... это не значит, что ...

В более общем смысле (если я помню, это называется бесплатный обед), вы ничего не можете сделать без моделирования ... Кроме того, я думаю, что статистика пытается найти ответ на вопрос: «Что-то существенное или нет», это очень важный вопрос в науке, и на него нельзя ответить в процессе обучения. Чтобы заявить Джона Тьюки (он был статистиком?):

Комбинация некоторых данных и болезненное желание получить ответ не гарантируют, что разумный ответ можно извлечь из данного массива данных.

Надеюсь это поможет !

Робин Жирар
источник
12

Очевидно, что эти две области явно сталкиваются с похожими, но разными проблемами, похожими, но не идентичными способами с аналогичными, но не идентичными концепциями, и работают в разных отделах, журналах и конференциях.

Когда я прочитал статистику расхождения сил Кресси и Рида, все это встало на свои места для меня. Их формула обобщает обычно используемую статистику тестов, которая варьируется в зависимости от показателя степени, лямбда. Есть два особых случая: лямбда = 0 и лямбда = 1.

Информатика и статистика вписываются в континуум (который, вероятно, может включать и другие моменты). При одном значении лямбда вы получаете статистику, обычно цитируемую в кругах статистики, а при другом - статистику, обычно цитируемую в кругах Comp Sci.

Статистика

  • Лямбда = 1
  • Суммы квадратов появляются много
  • Дисперсия как мера изменчивости
  • Ковариантность как мера ассоциации
  • Статистика хи-квадрат как мера соответствия модели

Компьютерная наука:

  • Лямбда = 0
  • Суммы логов появляются много
  • Энтропия как мера изменчивости
  • Взаимная информация как мера ассоциации
  • G-квадрат статистики как мера соответствия модели
user645715
источник
9

Один раз вы запускаете модный компьютерный алгоритм - и вы получаете презентацию CS / конференцию / статистический документ (вау, какая быстрая сходимость!). Вы коммерциализируете это и запускаете его миллион раз - и вы обанкротились (ой, почему я все время получаю бесполезные и невоспроизводимые результаты ???), если вы не знаете, как использовать вероятность и статистику для обобщения свойств алгоритма.

Stask
источник
3
Я понизил этот ответ. Хотя с таким вопросом, как этот, неизбежно будут возникать некоторые личные мнения, ИМО, мы должны стремиться к более существенной критике. Это просто сходит с ума.
Энди У
@ AndyW, это, конечно, преувеличение того, что я вижу вокруг. Неспособность думать статистически заблаговременно также относится и к академическому миру: воспроизводимость опубликованных результатов в области психологии или медицинских наук составляет не более 25% (см., Например, simplystatistics.tumblr.com/post/21326470429/… ), а не номинально. 95%. ОП хотела, чтобы статистика охватила информатику; может быть, информатика должна включать некоторую статистику, и я привел причины, почему.
StasK
5
@StasK Я думаю, вы делаете некоторые важные замечания, почему бы не попытаться сделать их немного менее агрессивными?
Гала
2
Мне понравился этот содержательный ответ.
Ян Варбертон
6

Существует область применения статистики, где большое значение имеет сосредоточенность на модели генерирования данных. В разработанных экспериментах, например, исследованиях на животных, клинических испытаниях, промышленных DOE, статистики могут приложить руку к тому, что представляет собой модель генерирования данных. ML, как правило, не тратит много времени на эту очень важную проблему, поскольку ML обычно фокусируется на другой очень важной проблеме прогнозирования, основанной на «больших» данных наблюдений. Это не означает, что ML не может быть применен к «большим» разработанным экспериментам, но важно признать, что статистика обладает особым опытом в отношении «небольших» проблем с данными, возникающих из экспериментов с ограниченными ресурсами.

В конце концов, я думаю, что мы все можем согласиться использовать то, что лучше всего подходит для решения этой проблемы. Например, у нас может быть спроектированный эксперимент, который дает очень широкие данные с целью прогнозирования. Статистические принципы проектирования очень полезны здесь, и методы ML могут быть полезны для построения предиктора.

Кларк
источник
4

Я думаю, что машинное обучение должно быть подотраслью статистики, точно так же, как, на мой взгляд, химия должна быть подотраслью физики.

Я думаю, что вдохновленный физикой взгляд на химию довольно твердый (я думаю). Я не думаю, что существует какая-либо химическая реакция, эквивалент которой неизвестен в физическом смысле. Я думаю, что физика проделала потрясающую работу, объясняя все, что мы можем видеть на уровне химии. Теперь задача физиков заключается в том, чтобы объяснить крошечные загадки на квантовом уровне в экстремальных условиях, которые невозможно наблюдать.

Теперь вернемся к машинному обучению. Я думаю, что это тоже должно быть подотраслью по статистике (насколько химия является подотраслью физики).

Но мне кажется, что каким-то образом текущее состояние машинного обучения или статистика недостаточно развиты, чтобы полностью это осознать. Но в долгосрочной перспективе я думаю, что одна должна стать частью другой. Я думаю, что это ML, который попадет под статистику.

Я лично считаю, что «изучение» и «анализ выборок» для оценки / вывода функций или прогнозов - это, по сути, вопрос статистики.

пещерный человек
источник
3
Должны ли биология, психология и социология быть также «подотраслями» физики?
амеба
Правильно ... Психология - это просто ввод / вывод с использованием очень сложных биологических машин. Однажды нам может понадобиться отправить наши машины психологу для диагностики ошибок (сам психолог может быть компьютером).
пещерный человек
1
Мне кажется, что математика - отец всего. Оттуда мы применили математику, из которой происходят физика и другие вещи. Статистика является одним из тех. Я думаю, что ML не обязательно должен быть самостоятельной ветвью, а вместо этого влиться в статистику. Но если ML становится отдельной ветвью, я предпочитаю, чтобы она была дочерней / подотраслью статистики.
пещерный человек
4

Из курса Coursera «Наука о данных в реальной жизни» Брайана Каффо

Машинное обучение

  • Подчеркните прогнозы
  • Оценивает результаты с помощью прогнозирования
  • Забота о переоснащении, но не о сложности модели как таковой
  • Акцент на производительность
  • Обобщаемость достигается за счет производительности на новых наборах данных
  • Обычно модель суперпопуляции не указывается
  • Забота о производительности и надежности

Традиционный статистический анализ

  • Подчеркивает вывод о суперпопуляции
  • Ориентирован на априорные гипотезы
  • Более простые модели предпочтительнее сложных (скупость), даже если более сложные модели работают немного лучше
  • Акцент на интерпретируемость параметров
  • Статистическое моделирование или выборочные предположения связывают данные с интересующей совокупностью
  • Беспокойство по поводу предположений и надежности
KoenBal
источник
-5

Как компьютерный ученый, я всегда заинтригован, когда смотрю на статистические подходы. Мне часто кажется, что статистические модели, используемые в статистическом анализе, слишком сложны для данных во многих ситуациях!

Например, существует тесная связь между сжатием данных и статистикой. По сути, нужна хорошая статистическая модель, которая способна хорошо прогнозировать данные, и это обеспечивает очень хорошее сжатие данных. В информатике при сжатии данных всегда важна сложность статистической модели и точность прогноза. Никто не хочет, чтобы КОГДА-ЛИБО файл данных (содержащий звуковые данные, данные изображений или видео) становился больше после сжатия!

Я считаю, что в области компьютерных наук есть более динамичные вещи, связанные со статистикой, такие как, например, Минимальная длина описания и Нормализованная максимальная вероятность .

cerb
источник