Прогнозирующие модели: статистика не может превзойти машинное обучение? [закрыто]

14

В настоящее время я слежу за магистерской программой, ориентированной на статистику / эконометрику. В моем мастере все студенты должны были сделать 3 месяца исследований. На прошлой неделе все группы должны были представить свои исследования остальным студентам магистратуры.

Почти каждая группа выполнила некоторое статистическое моделирование и моделирование машинного обучения для своих тем исследований, и каждый раз, когда предсказания вне выборки приходили к разговору, простые модели машинного обучения опережали очень сложные статистические модели, над которыми каждый работал очень усердно в течение последних 3 месяцы. Независимо от того, насколько хороши статистические модели для всех, простой случайный лес получал меньше ошибок вне выборки почти всегда.

Мне было интересно, если это общепринятое наблюдение? Что, если речь идет о прогнозировании вне выборки, просто нет способа победить простую модель случайного леса или экстремального градиента? Эти два метода очень просты для реализации с использованием пакетов R, тогда как все статистические модели, которые все придумали, требуют значительных навыков, знаний и усилий для оценки.

Что вы думаете об этом? Является ли единственным преимуществом статистических / эконометрических моделей, которые вы получаете интерпретации? Или наши модели были просто недостаточно хороши, чтобы они не смогли значительно превзойти простые предсказания случайных лесов? Есть ли документы, посвященные этой проблеме?

dubvice
источник
5
Это вполне может быть закрыто как «слишком широкое». (Надеюсь, не как «основанный на мнении»!) Мое мнение: я не думаю, что есть универсальный ответ. Мой опыт показывает, что статистические модели лучше, если наблюдений меньше, потому что тогда навязывание какой-либо структуры улучшает в значительной степени подход без моделей. И наоборот, РФ лучше, если есть много наблюдений. ...
Стефан Коласса
4
... Другой вопрос, что именно было оценено и как. Если точечные прогнозы были оценены надлежащим образом (показатели точности могут быть на удивление обманчивы), это другой вопрос, чем если бы прогнозы плотности были. Статистические модели могут быть лучше при прогнозировании плотности, опять же, потому что вам нужно намного больше данных.
Стефан Коласса
1
@StephanKolassa: Я думаю, что хороший ответ (или набор из нескольких ответов) на этот вопрос будет содержать причины, по которым не существует универсального ответа - теоретически и практически - как оценивается прогнозная эффективность, как проводить различие между статистикой и машиной методы обучения, какие цели могут быть за пределами предсказания, и пара вещей, о которых я даже не задумывался. Так что широкая сфера применения; но, на мой взгляд, не слишком широко, и попытка ограничить это может просто помешать сделать полезные общие замечания.
Scortchi - Восстановить Монику
5
То, что мы не хотим, это коллекция анекдотов - я настоятельно призываю пользователей пометить ответы на удаление, которые доходят чуть больше, чем, например, «Я всегда обнаружил, что случайные леса побеждают логистическую регрессию», хотя и многословно. Мы можем немного бездельничать насчет комментариев, но длинные темы будут перенесены в чат.
Scortchi - Восстановить Монику
14
Я не думаю, что есть значимое различие между статистикой и машинным обучением. Например, Лео Брейман, известный исследователь случайных лесов, был профессором статистики в Калифорнийском университете в Беркли. В контексте вашего анекдота RF оказался лучше, чем другие модели, которые подходили людям, но я не вижу причин, почему это должно быть правдой в целом (см. Также теорему об отсутствии бесплатного обеда). Возможно, это говорит больше о наборе данных (или даже студентах), чем о методах.
Sycorax говорит восстановить Monica

Ответы:

20

Статистическое моделирование отличается от машинного обучения. Например, линейная регрессия - это и статистическая модель, и модель машинного обучения. Таким образом, если вы сравниваете линейную регрессию со случайным лесом, вы просто сравниваете более простую модель машинного обучения с более сложной. Вы не сравниваете статистическую модель с моделью машинного обучения.

Статистическое моделирование дает больше, чем интерпретация; это фактически дает модель некоторого параметра населения. Это зависит от большой системы математики и теории, которая учитывает формулы для таких вещей, как дисперсия коэффициентов, дисперсия предсказаний и проверка гипотез. Потенциальная доходность статистического моделирования намного больше, чем машинное обучение, потому что вы можете делать сильные заявления о параметрах совокупности вместо того, чтобы просто измерять погрешность при удержании, но решить проблему со статистической моделью значительно сложнее.

Пользователь0
источник
1
Насколько я понимаю, вы говорите, что со статистикой вы получаете больше преимуществ, таких как дисперсия коэффициентов, дисперсия прогнозов и проверка гипотез. Но когда речь идет просто о прогнозном моделировании, то есть о точных прогнозах некоторой переменной отклика, думаете ли вы, что статистические модели могут превзойти модели машинного обучения?
Дубвице
5
Это ответ (+1!). На мой взгляд (и, возможно, других) существует несколько типов статистического анализа: описательный, выводной, прогнозирующий, исследовательский и т. Д. Машинное обучение в основном подпадает под прогнозный анализ, и большая часть этого не позволяет сделать вывод утверждения о вещах, поэтому все сводится к тому, чтобы «использовать правильный инструмент для работы под рукой» (учитывая пример линейной регрессии, его можно использовать во всех областях, например, для оценки условных ожиданий, что является описательной задачей).
Firebug
2
Это звучит как утверждение, что стандартное статистическое моделирование может быть лучше для вывода (в отличие от прогнозирования), чем для машинного обучения, что может помочь интерпретации модели. Хотя это, конечно, верно, если мы сравним обычную регрессию наименьших квадратов с глубокой нейронной сетью, учитывая, что исходный вопрос конкретно ссылается на случайный лес (хороший алгоритм ML для вывода), такое утверждение немного нечетко.
Greenstick
2
Вот некоторые убедительные доказательства из области временных рядов, где статистические модели последовательно превосходят подходы машинного обучения: Макридакис «Методы прогнозирования статистического и машинного обучения: проблемы и пути продвижения вперед» .
Ричард Харди
1
Это просто идеальный ответ. Вот пример: скажем, у вас есть показатель, который предсказывает выживаемость пациентов с данным заболеванием. Существуют международные стандарты того, как определить, является ли эта мера клинически достоверной (в основном, если коэффициент отличается от 0 со значением ниже 5% в одномерной или многомерной модели). Хотя я абсолютно уверен, что в 99% случаев случайный лес с достаточным количеством данных будет более подходящей моделью прогнозирования.
Реми Николь
5

Неправильно формулировать вопрос так, как вы его сформулировали. Например, значительную часть машинного обучения можно назвать статистическим обучением . Итак, ваше сравнение похоже на яблоки и фруктовые пироги.

Однако я пойду с тем, как вы это сформулировали, и скажу следующее: когда дело доходит до предсказания, ничего нельзя сделать без какой-либо формы статистики, потому что предсказание по своей природе имеет случайность (неопределенность). Учтите это: несмотря на огромный успех машинного обучения в некоторых приложениях, ему абсолютно нечего хвастаться в прогнозировании цен на активы. Вообще ничего Почему? Потому что на большинстве развитых ликвидных рынков цены на активы по своей природе стохастические.

Вы можете управлять машинным обучением целый день, чтобы наблюдать и узнавать о радиоактивном распаде атомов, и он никогда не сможет предсказать время распада следующего атома просто потому, что он случайный.

Будучи начинающим статистиком, с вашей стороны было бы глупо не осваивать машинное обучение, потому что это одно из самых популярных приложений статистики, если, конечно, вы точно не знаете, что собираетесь в академические круги. Любой, кто может работать в этой отрасли, должен освоить ML. Там нет никакой вражды или конкуренции между статистикой и толпами ОД вообще. На самом деле, если вам нравится программирование, вы будете чувствовать себя как дома в сфере ML

Аксакал почти наверняка бинарный
источник
2

Как правило, нет, но потенциально да, при неправильном указании. Вопрос, который вы ищете, называется допустимостью. Решение является допустимым, если есть не менее рискованный способ его расчета.

Все байесовские решения являются допустимыми, а небайесовские решения допустимы в той степени, в которой они либо соответствуют байесовскому решению в каждой выборке, либо на пределе. Допустимое частое или байесовское решение всегда побьет решение ML, если оно также не допустимо. С учетом сказанного, есть некоторые практические замечания, которые делают это утверждение правдивым, но бессмысленным.

Во-первых, априор для байесовского варианта должен быть вашим реальным априором, а не каким-то априорным распространением, используемым для того, чтобы сделать редактора в журнале счастливым. Во-вторых, многие решения Frequentist недопустимы, и вместо стандартного решения следовало бы использовать оценку усадки. Многие люди не знают о лемме Стейна и ее последствиях из-за ошибки выборки. Наконец, ML во многих случаях может быть немного более устойчивым к ошибке неправильной спецификации.

Когда вы переходите к деревьям решений и их кузенам, лесам, вы не используете подобную методологию, если только вы не используете нечто похожее на сеть Байеса. Графическое решение содержит значительное количество неявной информации, в частности, ориентированный граф. Всякий раз, когда вы добавляете информацию в вероятностный или статистический процесс, вы уменьшаете изменчивость результата и изменяете то, что считается допустимым.

Если вы посмотрите на машинное обучение с точки зрения композиции функций, оно просто станет статистическим решением, но с использованием приближений, чтобы сделать решение поддающимся обработке. Для байесовских решений MCMC экономит невероятное количество времени, как и градиентный спуск для многих задач ML. Если бы вам пришлось либо построить точный апостериор для интеграции, либо использовать грубую силу для решения многих проблем ОД, Солнечная система умерла бы своей тепловой смертью, прежде чем вы получили ответ.

Я предполагаю, что у вас есть неправильно заданная модель для тех, кто использует статистику или неприемлемую статистику. Я преподавал лекцию, в которой доказал, что новорожденные будут выплывать из окон, если их не пеленать должным образом, и где байесовский метод настолько радикально превзошел метод Frequentist по полиномиальному выбору, что метод Frequentist безубыточен, в ожидании, в то время как метод Bayesian удвоил деньги участников. , Теперь я злоупотреблял статистикой в ​​первом и использовал недопустимость оценки Frequentist во втором, но наивный пользователь статистики мог легко сделать то, что я сделал. Я просто сделал их экстремальными, чтобы примеры были очевидными, но я использовал абсолютно реальные данные.

Случайные леса являются последовательными оценками, и они, похоже, напоминают определенные байесовские процессы. Из-за связи с оценщиками ядра они могут быть довольно близки. Если вы видите существенное различие в производительности между типами решений, то в лежащей в основе проблеме есть что-то, что вы неправильно понимаете, и если проблема имеет какое-то значение, вам действительно нужно искать источник различия, поскольку это также может быть В случае, если все модели указаны неправильно.

Дейв Харрис
источник
1

Множество машинного обучения может не сильно отличаться от p-хакерства, по крайней мере, для некоторых целей.

Если вы тестируете каждую возможную модель, чтобы найти ту, которая имеет наивысшую точность прогнозирования (историческое прогнозирование или прогнозирование вне группы) на основе исторических данных, это не обязательно означает, что результаты помогут понять, что происходит. Тем не менее, возможно, он найдет возможные отношения, которые могут обосновать гипотезу.

Мотивация конкретных гипотез, а затем их проверка с использованием статистических методов, безусловно, может быть аналогичным образом взломана (или аналогична).

Но дело в том, что если критерием является «высочайшая точность прогнозирования на основе исторических данных», то существует высокий риск быть самоуверенным в некоторой модели, которую никто не понимает, фактически не имея представления о том, что послужило причиной этих исторических результатов и / или могут ли они быть информативными в будущем.

nathanwww
источник