Байесовский против MLE, проблема переоснащения

12

В книге Бишопа по PRML он говорит, что переоснащение - это проблема с оценкой максимального правдоподобия (MLE), и байесовский может ее избежать.

Но я думаю, что переоснащение - это проблема скорее выбора модели, а не метода, используемого для оценки параметров. То есть, предположим, что у меня есть набор данных , который генерируется через , теперь я мог бы выбрать другие модели чтобы соответствовать данным, и выяснить, Какой из них лучше. И рассматриваемые модели являются полиномиальными с разными порядками, - это порядок 1, - это порядок 2, - это порядок 9.D

f(x)=sin(x),x[0,1]
HiH1H2H3

Теперь я пытаюсь согласовать данные с каждой из 3 моделей, каждая модель имеет свои параметры, обозначенные как для .DwiHi

Используя ML, у меня будет точечная оценка параметров модели , а слишком прост и всегда будет соответствовать данным, тогда как слишком сложен и будет соответствовать данным, только будет хорошо соответствовать данным.wH1H3H2

Мои вопросы

1) Модель будет соответствовать данным, но я не думаю, что это проблема ML, а проблема модели как таковой. Потому что, используя ML для не приводит к переоснащению. Я прав?H3H1,H2

2) По сравнению с байесовским, ML имеет некоторые недостатки, так как он просто дает точечную оценку параметров модели , и он самоуверен. Принимая во внимание, что байесовский метод зависит не только от наиболее вероятного значения параметра, но и от всех возможных значений параметров с учетом наблюдаемых данных , верно?wD

3) Почему байесовский может избежать или уменьшить переоснащение? Насколько я понимаю, мы можем использовать байесовский метод для сравнения моделей, то есть, учитывая данные , мы могли бы определить предельную вероятность (или свидетельство модели) для каждой рассматриваемой модели, а затем выбрать ту, которая имеет наибольшую предельную вероятность, верно ? Если так, то почему?D

авокадо
источник

Ответы:

19

Оптимизация - корень зла в статистике. Каждый раз, когда вы делаете выбор в отношении своей модели , оптимизируя какой-либо подходящий критерий, оцениваемый на конечной выборке данных, вы рискуете переопределить критерий, то есть уменьшить статистику за пределы точки, в которой получены улучшения в производительности обобщения и сокращение вместо этого получается путем использования особенностей выборки данных, например, шума). Причина, по которой байесовский метод работает лучше, состоит в том, что вы ничего не оптимизируете, а вместо этого изолируете (интегрируете) все возможные варианты. Тогда проблема заключается в выборе предыдущих убеждений относительно модели, поэтому одна проблема исчезла, но на ее месте появилась другая.1


1 This includes maximising the evidence (marginal likelihood) in a Bayesian setting. For an example of this, see the results for Gaussian Process classifiers in my paper, where optimising the marginal likelihood makes the model worse if you have too many hyper-parameters (note selection according to marginal likelihood will tend to favour models with lots of hyper-parameters as a result of this form of over-fitting).

G. C. Cawley and N. L. C. Talbot, Over-fitting in model selection and subsequent selection bias in performance evaluation, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, July 2010. (pdf)

Dikran Marsupial
источник
+1, thank you so much, I'll read your paper and see if I have any further questions, ;-)
avocado
1
Just to note here that optimization can usually be thought of as approximately integrating - the Laplace method is an example of this. Optimising usually fails when it isn't a good approximation to integrating - hence why REML is usually better than ML.
probabilityislogic
@probabilityislogic, I am not sure I understand, ML is a bit like MAP, there is no integration performed. Using the Laplace approximation (in the way I have seen it used) is optimising in the sense that you optimise an approximation to the function your want to integrate and integrate that instead, but there is still integration going on.
Dikran Marsupial
1
@dikran marsupial - Perhaps a better way to explain it is that integration is often well approximated by estimating a parameter by ML, and constraining that parameter to be equal its MLE. The Laplace approximation provides a "correction factor" to this intuition - in the same way that REML does.
probabilityislogic
@probabilityislogic thanks for the reply, I'll give it some thought!
Dikran Marsupial
7

As a general response, if you're using "least squares" type regression models there really isn't much difference between bayes and ML, unless you use an informative prior for the regression parameters. In response to specifics:

1)H9 won't necessarily overfit the data - only when you have close to 9 observations. If you had 100 observations, most of the supposedly "overfitted" coefficients will be close to zero. Also H1 would almost always result in "underfitting" - as there would be clear curvature missed

2) This is, not true for "linear" like polynomial expansions ("linear" meaning linear with respect to parameters, not x). ML estimates for least squares are identical to posterior means under non informative priors or large sample sizes. In fact you can show that ML estimates can be thought of as "asymptotic" posterior means under a variety of models.

3) The Bayesian approach can avoid overfitting only for proper priors. This operates in a similar manner to penalty terms you see in some fitting algorithms. For example, L2 penalty = normal prior, L1 penalty = laplace prior.

probabilityislogic
источник
upvoted, and you're right that with more observations at hand, H9 won't overfit. But am I right with the claim that overfitting is a problem of choosing the wrong model, not the ML per se? And we can use Bayesian in model selection, but we can't do that with ML, can we?
avocado
Surely all choices of H here will be the wrong model, other than H. The problem is the error in estimating the parameters of the model, which has both bias and variance components. If you choose the model using a Bayesian criterion, you can still over-fit that as well (I'll add a reference to support that in my answer).
Dikran Marsupial
@loganecolss - I think H9 here would be closer to the truth than any others. Overfitting is more closely linked with the sample size and the type of model structure that it can provide support for (sometimes called the "sure thing" model).
probabilityislogic
4

Basically, what you're doing by increasing the degrees of your polynomials is increasing the number of parameters or degrees of freedom of your model space, ie. its dimension. The more parameters you add, the more the model can fit the training data easily. But this also depends heavily on the number of observations. Your models H1 and H2 might just as well overfit the training data if the number of observations is low, just as H3 may not overfit at all if the number of training instances is large enough.

For example, let's grossly exaggerate and suppose you are given only 2 training examples, than even H1 will always overfit your data.

The advantage of imposing priors for instance through regularisation is that the parameters are either shrunk to zero or some other predefined value (you can even add parameters to "tie" the coefficients together if you like), and thus you are implicitly constraining the parameters and reducing the "freedom" of your model to overfit. For example, using the lasso (ie. l1 regularisation or equivalently a Laplace prior) and tuning the corresponding parameter (using 10x cross validation for example) will automatically get rid of the surplus parameters. The Bayesian interpretation is similar : by imposing priors, you are constraining your parameters to some more probable value, inferred from the overall data.

Youloush
источник
A simple hypothesis (e.g. h1, h2) with insufficient training samples would be an example of under fitting (for cv) and not over fitting due to model bias on the few training examples given.
yekta