В книге Бишопа по PRML он говорит, что переоснащение - это проблема с оценкой максимального правдоподобия (MLE), и байесовский может ее избежать.
Но я думаю, что переоснащение - это проблема скорее выбора модели, а не метода, используемого для оценки параметров. То есть, предположим, что у меня есть набор данных , который генерируется через , теперь я мог бы выбрать другие модели чтобы соответствовать данным, и выяснить, Какой из них лучше. И рассматриваемые модели являются полиномиальными с разными порядками, - это порядок 1, - это порядок 2, - это порядок 9.
Теперь я пытаюсь согласовать данные с каждой из 3 моделей, каждая модель имеет свои параметры, обозначенные как для .
Используя ML, у меня будет точечная оценка параметров модели , а слишком прост и всегда будет соответствовать данным, тогда как слишком сложен и будет соответствовать данным, только будет хорошо соответствовать данным.
Мои вопросы
1) Модель будет соответствовать данным, но я не думаю, что это проблема ML, а проблема модели как таковой. Потому что, используя ML для не приводит к переоснащению. Я прав?
2) По сравнению с байесовским, ML имеет некоторые недостатки, так как он просто дает точечную оценку параметров модели , и он самоуверен. Принимая во внимание, что байесовский метод зависит не только от наиболее вероятного значения параметра, но и от всех возможных значений параметров с учетом наблюдаемых данных , верно?
3) Почему байесовский может избежать или уменьшить переоснащение? Насколько я понимаю, мы можем использовать байесовский метод для сравнения моделей, то есть, учитывая данные , мы могли бы определить предельную вероятность (или свидетельство модели) для каждой рассматриваемой модели, а затем выбрать ту, которая имеет наибольшую предельную вероятность, верно ? Если так, то почему?
источник
As a general response, if you're using "least squares" type regression models there really isn't much difference between bayes and ML, unless you use an informative prior for the regression parameters. In response to specifics:
1)H9 won't necessarily overfit the data - only when you have close to 9 observations. If you had 100 observations, most of the supposedly "overfitted" coefficients will be close to zero. Also H1 would almost always result in "underfitting" - as there would be clear curvature missed
2) This is, not true for "linear" like polynomial expansions ("linear" meaning linear with respect to parameters, notx ). ML estimates for least squares are identical to posterior means under non informative priors or large sample sizes. In fact you can show that ML estimates can be thought of as "asymptotic" posterior means under a variety of models.
3) The Bayesian approach can avoid overfitting only for proper priors. This operates in a similar manner to penalty terms you see in some fitting algorithms. For example, L2 penalty = normal prior, L1 penalty = laplace prior.
источник
Basically, what you're doing by increasing the degrees of your polynomials is increasing the number of parameters or degrees of freedom of your model space, ie. its dimension. The more parameters you add, the more the model can fit the training data easily. But this also depends heavily on the number of observations. Your modelsH1 and H2 might just as well overfit the training data if the number of observations is low, just as H3 may not overfit at all if the number of training instances is large enough.
For example, let's grossly exaggerate and suppose you are given only2 training examples, than even H1 will always overfit your data.
The advantage of imposing priors for instance through regularisation is that the parameters are either shrunk to zero or some other predefined value (you can even add parameters to "tie" the coefficients together if you like), and thus you are implicitly constraining the parameters and reducing the "freedom" of your model to overfit. For example, using the lasso (ie.l1 regularisation or equivalently a Laplace prior) and tuning the corresponding parameter (using 10x cross validation for example) will automatically get rid of the surplus parameters.
The Bayesian interpretation is similar : by imposing priors, you are constraining your parameters to some more probable value, inferred from the overall data.
источник