Почему модели гауссовских процессов называют непараметрическими?

26

Я немного смущен. Почему гауссовские процессы называют непараметрическими моделями?

Они предполагают, что функциональные значения или их подмножества имеют гауссовский априор со средним 0 и ковариационную функцию, заданную в качестве функции ядра. Эти функции ядра сами имеют некоторые параметры (например, гиперпараметры).

Так почему их называют непараметрическими моделями?

user34790
источник
1
Я знаю несколько определений «гауссовских процессов», поэтому неясно, о чем действительно спрашивает ваш вопрос. Но когда вы обдумываете, как это прояснить, задайте себе вопрос: как именно вы бы параметризовали гауссовский процесс, который вы имеете в виду? Если вы не можете сделать это естественным образом с конечным числом реальных параметров, то это следует считать непараметрическим.
whuber
@whuber. AFAIK, основными параметрами гауссовских процессов являются среднее и ковариационные функции. Но поскольку мы продолжаем добавлять точки данных, они продолжают увеличиваться. Так что он продолжает расти. Поэтому гауссовские процессы называются непараметрическими?
user34790 27.12.12
@whuber Если у меня есть миллионы точек обучающих данных, то мой GP f ~ N (m, k) будет многомерным многомерным гауссовым распределением. Разве это не слишком большой? Я имею в виду, что по мере поступления новых данных о тренировках они становятся все больше и больше. Разве это не вызывает вычислительных проблем?
user34790 27.12.12
1
«Параметрический» и «непараметрический» - это термины, которые не применяются к конкретным процессам: они применяются ко всему семейству процессов, которые могут быть вписаны в данные. Хотя я до сих пор не знаю, какое семейство вы имеете в виду, похоже, что при любых обстоятельствах число параметров может быть конечным, число параметров, которые могут появляться среди членов семьи, не ограничено : эго, проблема непараметрический.
whuber

Ответы:

20

Я предвосхищу это тем, что не всегда понятно, что подразумевается под «непараметрическим», «полупараметрическим» и т. Д. В комментариях представляется вероятным, что у whuber имеется какое-то формальное определение (возможно, что-то вроде выбора модели из какой-то семьи где - бесконечномерное), но я собираюсь быть довольно неформальной. Некоторые могут возразить, что непараметрический метод - это метод, в котором эффективное количество используемых вами параметров увеличивается с данными. Я думаю, что есть видео на videolectures.net, где (я думаю) Питер Орбанц дает четыре или пять различных взглядов на то, как мы можем определить «непараметрический».Mθ{Mθ:θΘ}Θ

Поскольку я думаю, что знаю, что вы имеете в виду, для простоты я предполагаю, что вы говорите об использовании гауссовских процессов для регрессии, типичным образом: у нас есть тренировочные данные и нас интересует моделирование условного среднего . Мы пишем и, возможно, мы настолько смелы, чтобы предположить, что ϵ i iid и нормально распределены, ϵ iN ( 0 , σ 2 ) . X я буду одномерным, но все переносится в более высокие измерения.E ( Y | X = x ) : = f ( x ) Y i = f ( X i ) + ϵ i(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)

Yi=f(Xi)+ϵi
ϵiεя~N(0,σ2)Икся

Если наше может принимать значения в континууме, то f ( ) можно рассматривать как параметр (неисчислимо) бесконечной размерности. Итак, в том смысле, что мы оцениваем параметр бесконечной размерности , наша задача непараметрическая. Это правда, что байесовский подход имеет некоторые параметры, плавающие здесь и там. Но на самом деле это называется непараметрическим, потому что мы оцениваем что-то бесконечного измерения. Используемые нами априоры ГП присваивают массу каждой окрестности каждой непрерывной функции, чтобы они могли произвольно хорошо оценить любую непрерывную функцию.Иксяе()

Вещи в ковариационной функции играют роль, аналогичную параметрам сглаживания в обычных оценках частоты - для того, чтобы задача не была абсолютно безнадежной, мы должны предположить, что существует некоторая структура, которую мы ожидаем увидеть в . Байесовские решения достигают этого, используя априорное пространство непрерывных функций в форме гауссовского процесса. С байесовской точки зрения мы кодируем представления о f , предполагая, что f взято из GP с такой-то и такой-ковариационной функцией. Предыдущее эффективно штрафует оценки f за то, что они слишком сложны.ееее

Редактировать для вычислительных вопросов

Большая часть (все?) Этого материала находится в книге Расмуссена и Уильямса «Процесс Гаусса».

Вычислительные проблемы сложны для врачей общей практики. Если мы пойдем дальше, нам понадобится память размера только для хранения ковариационной матрицы и (оказывается ) операций O ( N 3 ) для ее инвертирования. Есть несколько вещей, которые мы можем сделать, чтобы сделать вещи более осуществимыми. Один из вариантов - отметить, что нам действительно нужен парень v , решение ( K + σ 2 I ) v = Y, где K - ковариационная матрица. Метод сопряженных градиентов решает это точно в O ( N 3 )О(N2)О(N3)v(К+σ2я)vзнак равноYКО(N3)вычисления, но если мы удовлетворимся приближенным решением, мы можем завершить алгоритм сопряженного градиента после шагов и сделать это в O ( k N 2 ) вычислениях. Нам также не обязательно хранить всю матрицу K сразу.КО(КN2)К

Таким образом, мы перешли от к O ( k N 2 ) , но это все равно масштабируется квадратично в N , поэтому мы не можем быть счастливы. Следующая лучшая вещь - это работать с подмножеством данных, скажем, с размером m, где инвертирование и сохранение матрицы m × m не так уж плохо. Конечно, мы не хотим просто выбросить оставшиеся данные. Подмножество подходов к регрессорам отмечает, что мы можем получить апостериорное значение нашего GP как регрессию наших данных Y на N зависимых от данных базисных функций, определенных нашей ковариационной функцией; поэтому мы бросаем все, кромеО(N3)О(КN2)Nмм×мYN от них, и мы до O ( м 2 N ) вычислений.мО(м2N)

ККзнак равноQQTQN×QQК+σ2яQTQ+σ2я

парень
источник
8

Вообще говоря, «непараметрический» в байесовских непараметрических параметрах относится к моделям с бесконечным числом (потенциальных) параметров. На videolectures.net есть много действительно хороших учебных пособий и лекций на эту тему ( таких как этот ), которые дают хорошие обзоры этого класса моделей.

В частности, гауссовский процесс (ГП) считается непараметрическим, поскольку ГП представляет функцию (т. Е. Бесконечномерный вектор). По мере увеличения количества точек данных ((x, f (x)) пар) увеличивается и количество «параметров» модели (ограничивающих форму функции). В отличие от параметрической модели, где число параметров остается фиксированным по отношению к размеру данных, в непараметрических моделях число параметров увеличивается с количеством точек данных.

Ник
источник
Это именно то, что я предполагал. Так что мое предположение верно, я думаю. Но мой вопрос, есть ли у меня миллион очков (данные наблюдений). Тогда моя ж также будет иметь миллионное измерение. Так что не было бы у меня вычислительных проблем. Далее моя ковариационная матрица также будет иметь размер 1 млн. Х 1 млн. Так что мне делать в этом случае?
user34790 27.12.12
@ user34790 да, у вас возникнут вычислительные проблемы. Вычислительные задачи довольно важны для врачей общей практики. У Расмуссена и Уильямса есть книга о врачах общей практики, в которой есть целая глава, посвященная этой теме, и если вы достаточно увлечены Google, вы можете найти ее в Интернете бесплатно. Смотрите мой обновленный пост для некоторых минимальных деталей.
Парень
1

Параметры, которые вы называете гиперпараметрами, не являются физически мотивированными параметрами и, следовательно, их именем. Они используются исключительно для параметризации функции ядра. Чтобы привести пример, в ядре Гаусса:

К(Икся,ИксJ)знак равночас2ехр(-(Икся-ИксJ)2λ2)

часλ

Эта проблема была также рассмотрена в этой лекции , это может помочь получить лучшее понимание.

camillejr
источник