Случайный лес и усиление являются параметрическими или непараметрическими?

13

Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...).

Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной статистиком, которая может плохо имитировать Природу. С другой стороны, алгоритмы ML не предполагают какой-либо формальной модели и напрямую изучают связи между входными и выходными переменными из данных.

Я понял, что Bagging / RF и Boosting, также являются своего рода параметрическими: например, ntree , mtry в RF, скорость обучения , доля пакетов , сложность дерева в деревьях со случайным градиентом Boostted - все параметры настройки . Мы также являемся своего рода оценкой этих параметров по данным, так как мы используем данные, чтобы найти оптимальные значения этих параметров.

Так в чем же разница? Являются ли RF и Boosted Trees параметрическими моделями?

Antoine
источник

Ответы:

12

Параметрические модели имеют параметры (выводящие их) или предположения относительно распределения данных, тогда как RF, нейронные сети или стимулирующие деревья имеют параметры, связанные с самим алгоритмом, но им не нужны предположения о распределении ваших данных или их классификация в теоретическое распределение. , Фактически почти все алгоритмы имеют такие параметры, как итерации или значения полей, связанные с оптимизацией.

D.Castro
источник
5
Итак, чтобы подвести итог: 1) параметры ML и параметрических моделей настраиваются / оцениваются на основе данных, НО 2) в ML, параметры управляют тем, как алгоритмы учатся на основе данных (не делая никаких предположений о данных, и ниже по течению от генерация данных), тогда как параметры параметрических моделей (модели, которые предполагаются априори) управляют механизмом, который, как предполагается, производил данные (с большим количеством нереалистичных предположений, которые редко применяются на практике). Как вы думаете, это адекватное резюме? Вы бы добавили / изменили что-нибудь?
Антуан
4
Я думаю, что предложение из статьи Бреймана, в котором все суммируется, «алгоритмическое моделирование смещает фокус с моделей данных на свойства алгоритмов».
Антуан
1
Вы можете суммировать это так, но ... не стоит недооценивать параметрические модели. Существуют ситуации, когда они необходимы и оптимальны для решения множества проблем. Также их предположения не так уж нереальны. Многие теоретические распределения подходят для объяснения многих вещей, от нормального до биномиального до логнормального, геометрического и т. Д. Речь идет не о том или ином, а о выборе правильного способа решения проблемы.
D.Castro
4
Я согласен. Когда основной физический процесс хорошо известен, уместны параметрические модели. Брейман критикует использование параметрических моделей для обнаружения и прогнозирования знаний, когда основные процессы неизвестны
Антуан
1

Я думаю, что критерий для параметрических и непараметрических заключается в следующем: растет ли количество параметров с количеством обучающих выборок. Для логистической регрессии и SVM, когда вы выбираете функции, вы не получите больше параметров, добавив больше обучающих данных. Но для RF и т. Д. Детали модели изменятся (например, глубина дерева), даже если количество деревьев не изменится.

Ю Чжан
источник
но в RF или Boosting увеличение глубины дерева не добавляет параметры. У вас все еще есть свой tree.complexityпараметр, вы просто меняете его значение. Кроме того, в RF и Boosting количество деревьев в лесу / последовательности меняется в зависимости от размера вашей выборки
Antoine
в моих вариантах, когда глубина дерева изменяется, в дереве появляются еще несколько расщеплений, поэтому у вас есть больше параметров. Когда число деревьев изменяется в RF и Boosting по мере изменения данных, но этого не произойдет, когда модель является линейной моделью.
Ю Чжан
1

В статистическом смысле модель является параметрической, если параметры изучаются или выводятся на основании данных. Дерево в этом смысле непараметрическое. Конечно, глубина дерева является параметром алгоритма, но она не является неотъемлемой частью данных, а является входным параметром, который должен быть предоставлен пользователем.

PeterPancake
источник
Итак, скажем, вы должны представить OLS и древовидные модели нетехнической аудитории. Могли бы вы сказать, что первые являются параметрическими, а вторые - непараметрическими?
Танги