Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...).
Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной статистиком, которая может плохо имитировать Природу. С другой стороны, алгоритмы ML не предполагают какой-либо формальной модели и напрямую изучают связи между входными и выходными переменными из данных.
Я понял, что Bagging / RF и Boosting, также являются своего рода параметрическими: например, ntree , mtry в RF, скорость обучения , доля пакетов , сложность дерева в деревьях со случайным градиентом Boostted - все параметры настройки . Мы также являемся своего рода оценкой этих параметров по данным, так как мы используем данные, чтобы найти оптимальные значения этих параметров.
Так в чем же разница? Являются ли RF и Boosted Trees параметрическими моделями?
Я думаю, что критерий для параметрических и непараметрических заключается в следующем: растет ли количество параметров с количеством обучающих выборок. Для логистической регрессии и SVM, когда вы выбираете функции, вы не получите больше параметров, добавив больше обучающих данных. Но для RF и т. Д. Детали модели изменятся (например, глубина дерева), даже если количество деревьев не изменится.
источник
tree.complexity
параметр, вы просто меняете его значение. Кроме того, в RF и Boosting количество деревьев в лесу / последовательности меняется в зависимости от размера вашей выборкиВ статистическом смысле модель является параметрической, если параметры изучаются или выводятся на основании данных. Дерево в этом смысле непараметрическое. Конечно, глубина дерева является параметром алгоритма, но она не является неотъемлемой частью данных, а является входным параметром, который должен быть предоставлен пользователем.
источник