Я довольно новичок в области гауссовских процессов и того, как они применяются в машинном обучении. Я продолжаю читать и слышать о ковариационных функциях, являющихся главной привлекательностью этих методов. Так может ли кто-нибудь объяснить интуитивно, что происходит в этих ковариационных функциях?
В противном случае, если бы вы могли указать на конкретное руководство или документ, объясняющий их.
Ответы:
Типичные ядра могут просто зависеть от евклидова расстояния (или их линейных преобразований) между точками, но самое интересное начинается, когда вы понимаете, что вы можете сделать гораздо больше.
Как сказал Давид Дювено:
Для легкого обзора ядер для GP, я настоятельно рекомендую его Kernel Cookbook и ссылки в нем.
(*) Как отмечает @Dikran Marsupial, остерегайтесь того, что обратное неверно; не все метрики подобия являются действительными ядрами (см. его ответ).
источник
Так почему же ядро должно интерпретироваться как внутренний продукт в некотором функциональном пространстве? Причина заключается в том, что гораздо проще разработать теоретические границы производительности обобщений для линейных моделей (таких как логистическая регрессия), чем для нелинейных моделей (таких как нейронная сеть). Большинство линейных моделей можно записать так, чтобы входные векторы появлялись только в форме внутренних произведений. Это означает, что мы можем построить нелинейную модель, построив линейную модель в пространстве признаков ядра. Это фиксированное преобразование данных, поэтому все теоретические границы производительности для линейной модели автоматически применяются к новой нелинейной модели ядра *.
Важный момент, который поначалу трудно осознать, состоит в том, что мы склонны не думать о пространстве функций, которое было бы полезно для нашего конкретного приложения, а затем разрабатывать ядро, дающее начало этому пространству функций. В общем, мы придумали хорошую метрику подобия, а затем посмотрим, является ли она ядром (тест прост, если любая матрица попарных оценок функции ядра в точках общего положения положительно определена, то она является допустимым ядром) ,
источник