Различные преобразования плотности вероятности из-за якобианского фактора

12

В книге Бишопа « Распознавание образов и машинное обучение» я прочитал следующее сразу после того, как была представлена ​​плотность вероятности :p(x(a,b))=abp(x)dx

При нелинейном изменении переменной плотность вероятности преобразуется не так, как в простой функции, благодаря фактору Якоби. Например, если мы рассмотрим замену переменных , то функция становится . Теперь рассмотрим плотность вероятности которая соответствует плотности относительно новой переменной , где достаточно обозначить тот факт, что и являются разными плотностями. Наблюдения, попадающие в диапазон , при малых значениях будут преобразованы в диапазонx=g(y)f(x)f~(y)=f(g(y))px(x)py(y)ypx(x)py(y)(x,x+δx)δx(y,y+δy) where px(x)δxpy(y)δy, and hence py(y)=px(x)|dxdy|=px(g(y))|g(y)|.

What is the Jacobian factor and what exactly does everything mean (maybe qualitatively)? Bishop says, that a consequence of this property is that the concept of the maximum of a probability density is dependent on the choice of variable. What does this mean?

To me this comes all a bit out of the blue (considering it's in the introduction chapter). I'd appreciate some hints, thanks!

ste
источник
3
"Intuitive explanation for the density of a transformed variable" might be helpful. Concerning "Jacobian," please search our site.
whuber
1
For a great description of the Jacobian factor see Khan Academy's video tutorial on the Jacobian determinant. khanacademy.org/math/multivariable-calculus/…
JStrahl

Ответы:

8

I suggest you reading the solution of Question 1.4 which provides a good intuition.

In a nutshell, if you have an arbitrary function f(x) and two variable x and y which are related to each other by the function x=g(y), then you can find the maximum of the function either by directly analyzing f(x): x^=argmaxx(f(x)) or the transformed function f(g(y)): y^=argmaxy(f(g(y)). Not surprisingly, x^ and y^ will be related to each as x^=g(y^) (here I assumed that y:g(y)0).

This is not the case for probability distributions. If you have a probability distribution px(x) and two random variables which are related to each other by x=g(y). Then there is no direct relation between x^=argmaxx(px(x)) and y^=argmaxy(py(y)). This happens because of Jacobian factor, a factor that shows how the volum is relatively changed by a function such as g(.).

MajidL
источник