В книге Бишопа « Распознавание образов и машинное обучение» я прочитал следующее сразу после того, как была представлена плотность вероятности :
При нелинейном изменении переменной плотность вероятности преобразуется не так, как в простой функции, благодаря фактору Якоби. Например, если мы рассмотрим замену переменных , то функция становится . Теперь рассмотрим плотность вероятности которая соответствует плотности относительно новой переменной , где достаточно обозначить тот факт, что и являются разными плотностями. Наблюдения, попадающие в диапазон , при малых значениях будут преобразованы в диапазон) where , and hence .
What is the Jacobian factor and what exactly does everything mean (maybe qualitatively)? Bishop says, that a consequence of this property is that the concept of the maximum of a probability density is dependent on the choice of variable. What does this mean?
To me this comes all a bit out of the blue (considering it's in the introduction chapter). I'd appreciate some hints, thanks!
Ответы:
I suggest you reading the solution of Question 1.4 which provides a good intuition.
In a nutshell, if you have an arbitrary functionf(x) and two variable x and y which are related to each other by the function x=g(y) , then you can find the maximum of the function either by directly analyzing f(x) : x^=argmaxx(f(x)) or the transformed function f(g(y)) : y^=argmaxy(f(g(y)) . Not surprisingly, x^ and y^ will be related to each as x^=g(y^) (here I assumed that ∀y:g′(y)≠0) .
This is not the case for probability distributions. If you have a probability distributionpx(x) and two random variables which are related to each other by x=g(y) . Then there is no direct relation between x^=argmaxx(px(x)) and y^=argmaxy(py(y)) . This happens because of Jacobian factor, a factor that shows how the volum is relatively changed by a function such as g(.) .
источник