Ковариационные функции или ядра - что это такое?

13

Я довольно новичок в области гауссовских процессов и того, как они применяются в машинном обучении. Я продолжаю читать и слышать о ковариационных функциях, являющихся главной привлекательностью этих методов. Так может ли кто-нибудь объяснить интуитивно, что происходит в этих ковариационных функциях?

В противном случае, если бы вы могли указать на конкретное руководство или документ, объясняющий их.

Anarki
источник
Глава 4. gaussianprocess.org/gpml '
Sycorax говорит восстановить Монику
Если это в первую очередь проблема запроса ссылки, вы можете добавить тег «ссылки». (Вопрос довольно широкий, но если вы принимаете людей, указывающих на то, что вы должны читать и читать, это в значительной степени решает эту проблему.)
Silverfish

Ответы:

12

k(x,x)x,xxxk(,)

Типичные ядра могут просто зависеть от евклидова расстояния (или их линейных преобразований) между точками, но самое интересное начинается, когда вы понимаете, что вы можете сделать гораздо больше.

Как сказал Давид Дювено:

Ядра могут быть определены для всех типов структур данных: текст, изображения, матрицы и даже ядра. Создание ядра с новым типом данных раньше было простым способом получить документ NIPS.

Для легкого обзора ядер для GP, я настоятельно рекомендую его Kernel Cookbook и ссылки в нем.


(*) Как отмечает @Dikran Marsupial, остерегайтесь того, что обратное неверно; не все метрики подобия являются действительными ядрами (см. его ответ).

lacerbi
источник
8

K(x,x)=ϕ(x)ϕ(x)ϕ() это функция, которая отображает входные векторы в пространстве признаков.

Так почему же ядро ​​должно интерпретироваться как внутренний продукт в некотором функциональном пространстве? Причина заключается в том, что гораздо проще разработать теоретические границы производительности обобщений для линейных моделей (таких как логистическая регрессия), чем для нелинейных моделей (таких как нейронная сеть). Большинство линейных моделей можно записать так, чтобы входные векторы появлялись только в форме внутренних произведений. Это означает, что мы можем построить нелинейную модель, построив линейную модель в пространстве признаков ядра. Это фиксированное преобразование данных, поэтому все теоретические границы производительности для линейной модели автоматически применяются к новой нелинейной модели ядра *.

Важный момент, который поначалу трудно осознать, состоит в том, что мы склонны не думать о пространстве функций, которое было бы полезно для нашего конкретного приложения, а затем разрабатывать ядро, дающее начало этому пространству функций. В общем, мы придумали хорошую метрику подобия, а затем посмотрим, является ли она ядром (тест прост, если любая матрица попарных оценок функции ядра в точках общего положения положительно определена, то она является допустимым ядром) ,

Дикран Сумчатый
источник
1
«ядро (тест прост, если какая-либо матрица попарных оценок функции ядра положительно определена, то это допустимое ядро)». Я считаю, что вам нужно включить «в разных точках».
Марк Л. Стоун