Помимо ядер Фишера

Какое-то время казалось, что ядра Фишера могут стать популярными, поскольку они, похоже, являются способом построения ядер из вероятностных моделей. Однако я редко видел, чтобы они использовались на практике, и у меня есть все основания полагать, что они не очень хорошо работают. Они полагаются на вычисление информации Фишера, цитируя Википедию:

информация Фишера является отрицательной величиной ожидания второй производной по отношению к θ натурального логарифма f. Информация может рассматриваться как мера «кривизны» кривой поддержки вблизи оценки максимального правдоподобия (MLE) θ.

Насколько я могу судить, это означает, что функция ядра между двумя точками - это расстояние по этой кривой поверхности - я прав?

Однако это может быть проблематично для использования в методах ядра, так как

MLE может быть очень плохой оценкой для данной модели
Кривизна кривой вокруг опорной MLE может быть не любое использование для различения между экземплярами, например, если поверхность была очень правдоподобие остроконечный
Это, кажется, выбрасывает много информации о модели

Если это так, есть ли более современные способы построения ядер из вероятностных методов? Например, можем ли мы использовать набор удержания, чтобы использовать оценки MAP таким же образом? Какие другие понятия расстояния или подобия вероятностных методов могут работать для построения (действительной) функции ядра?

machine-learning probability kernel-trick generative-models TDC
источник

Ответы:

Вы правы в отношении трех вопросов, которые вы поднимаете, и ваша интерпретация совершенно верна.

Люди смотрели на другие направления построения ядер из вероятностных моделей:

Морено и соавт. предложить Kullback-Leibler, хотя, когда это удовлетворяет условиям Мерсера, было не совсем понятно, когда я смотрел на эту проблему назад, когда я ее читал.
Джебара и др. предложить внутреннее произведение в пространстве распределений. Эта статья звучит очень похоже на то, что вы ищете: вы можете скачать ее здесь .

Я читал их некоторое время назад (2008), не уверенный, как эта область развивалась в последние несколько лет.

Есть также не вероятностные способы сделать это; люди в биоинформатике смотрели на динамическое программирование типов вещей в пространстве строк и так далее. Эти вещи не всегда PSD и имеют свои проблемы.

carlosdc
источник

jmlr.org/papers/volume10/martins09a/martins09a.pdf развивает некоторую теорию ядер, связанных с дивергенцией KL, которые являются и не являются положительно определенными.

Дугал