Я немного смущен. Почему гауссовские процессы называют непараметрическими моделями?
Они предполагают, что функциональные значения или их подмножества имеют гауссовский априор со средним 0 и ковариационную функцию, заданную в качестве функции ядра. Эти функции ядра сами имеют некоторые параметры (например, гиперпараметры).
Так почему их называют непараметрическими моделями?
nonparametric
gaussian-process
user34790
источник
источник
Ответы:
Я предвосхищу это тем, что не всегда понятно, что подразумевается под «непараметрическим», «полупараметрическим» и т. Д. В комментариях представляется вероятным, что у whuber имеется какое-то формальное определение (возможно, что-то вроде выбора модели из какой-то семьи где - бесконечномерное), но я собираюсь быть довольно неформальной. Некоторые могут возразить, что непараметрический метод - это метод, в котором эффективное количество используемых вами параметров увеличивается с данными. Я думаю, что есть видео на videolectures.net, где (я думаю) Питер Орбанц дает четыре или пять различных взглядов на то, как мы можем определить «непараметрический».Mθ {Mθ:θ∈Θ} Θ
Поскольку я думаю, что знаю, что вы имеете в виду, для простоты я предполагаю, что вы говорите об использовании гауссовских процессов для регрессии, типичным образом: у нас есть тренировочные данные и нас интересует моделирование условного среднего . Мы пишем и, возможно, мы настолько смелы, чтобы предположить, что ϵ i iid и нормально распределены, ϵ i ∼ N ( 0 , σ 2 ) . X я буду одномерным, но все переносится в более высокие измерения.E ( Y | X = x ) : = f ( x ) Y i = f ( X i ) + ϵ i(Yi,Xi),i=1,...,n E(Y|X=x):=f(x)
Если наше может принимать значения в континууме, то f ( ⋅ ) можно рассматривать как параметр (неисчислимо) бесконечной размерности. Итак, в том смысле, что мы оцениваем параметр бесконечной размерности , наша задача непараметрическая. Это правда, что байесовский подход имеет некоторые параметры, плавающие здесь и там. Но на самом деле это называется непараметрическим, потому что мы оцениваем что-то бесконечного измерения. Используемые нами априоры ГП присваивают массу каждой окрестности каждой непрерывной функции, чтобы они могли произвольно хорошо оценить любую непрерывную функцию.Икся е( ⋅ )
Вещи в ковариационной функции играют роль, аналогичную параметрам сглаживания в обычных оценках частоты - для того, чтобы задача не была абсолютно безнадежной, мы должны предположить, что существует некоторая структура, которую мы ожидаем увидеть в . Байесовские решения достигают этого, используя априорное пространство непрерывных функций в форме гауссовского процесса. С байесовской точки зрения мы кодируем представления о f , предполагая, что f взято из GP с такой-то и такой-ковариационной функцией. Предыдущее эффективно штрафует оценки f за то, что они слишком сложны.е е е е
Редактировать для вычислительных вопросов
Большая часть (все?) Этого материала находится в книге Расмуссена и Уильямса «Процесс Гаусса».
Вычислительные проблемы сложны для врачей общей практики. Если мы пойдем дальше, нам понадобится память размера только для хранения ковариационной матрицы и (оказывается ) операций O ( N 3 ) для ее инвертирования. Есть несколько вещей, которые мы можем сделать, чтобы сделать вещи более осуществимыми. Один из вариантов - отметить, что нам действительно нужен парень v , решение ( K + σ 2 I ) v = Y, где K - ковариационная матрица. Метод сопряженных градиентов решает это точно в O ( N 3 )O ( N2) O ( N3) v ( К+ σ2я) v = Y К O ( N3) вычисления, но если мы удовлетворимся приближенным решением, мы можем завершить алгоритм сопряженного градиента после шагов и сделать это в O ( k N 2 ) вычислениях. Нам также не обязательно хранить всю матрицу K сразу.К O ( к N2) К
Таким образом, мы перешли от к O ( k N 2 ) , но это все равно масштабируется квадратично в N , поэтому мы не можем быть счастливы. Следующая лучшая вещь - это работать с подмножеством данных, скажем, с размером m, где инвертирование и сохранение матрицы m × m не так уж плохо. Конечно, мы не хотим просто выбросить оставшиеся данные. Подмножество подходов к регрессорам отмечает, что мы можем получить апостериорное значение нашего GP как регрессию наших данных Y на N зависимых от данных базисных функций, определенных нашей ковариационной функцией; поэтому мы бросаем все, кромеO ( N3) O ( к N2) N м м × м Y N от них, и мы до O ( м 2 N ) вычислений.м O ( м2N)
источник
Вообще говоря, «непараметрический» в байесовских непараметрических параметрах относится к моделям с бесконечным числом (потенциальных) параметров. На videolectures.net есть много действительно хороших учебных пособий и лекций на эту тему ( таких как этот ), которые дают хорошие обзоры этого класса моделей.
В частности, гауссовский процесс (ГП) считается непараметрическим, поскольку ГП представляет функцию (т. Е. Бесконечномерный вектор). По мере увеличения количества точек данных ((x, f (x)) пар) увеличивается и количество «параметров» модели (ограничивающих форму функции). В отличие от параметрической модели, где число параметров остается фиксированным по отношению к размеру данных, в непараметрических моделях число параметров увеличивается с количеством точек данных.
источник
Параметры, которые вы называете гиперпараметрами, не являются физически мотивированными параметрами и, следовательно, их именем. Они используются исключительно для параметризации функции ядра. Чтобы привести пример, в ядре Гаусса:
Эта проблема была также рассмотрена в этой лекции , это может помочь получить лучшее понимание.
источник