Я использую гауссовский процесс (ГП) для регрессии.
В моей задаче довольно часто две или более точек данных находятся близко друг к другу относительно длины масштабы проблемы. Также наблюдения могут быть очень шумными. Чтобы ускорить вычисления и повысить точность измерений , кажется естественным объединять / интегрировать кластеры точек, которые находятся близко друг к другу, если я забочусь о прогнозах в большем масштабе длины.
Интересно, что такое быстрый, но полу-принципиальный способ сделать это?
Если две точки данных были полностью перекрыты, , и шум наблюдения (т. Е. Вероятность) является гауссовским, возможно, гетероскедастическим, но известным , кажется, что естественный способ объединения их в одну точку данных:
, для .
Наблюдаемое значение которое является средним значением наблюдаемых значений взвешенных по их относительной точности: . у(1),у(2) ˉ у =σ 2 у ( → х ( 2 ) )
Шум, связанный с наблюдением, равен: .
Тем не менее, как мне объединить две точки, которые близки, но не перекрываются?
Я думаю, что должен быть средневзвешенным значением двух позиций, опять же с использованием относительной достоверности. Обоснование - аргумент центра масс (т. Е. Думать о очень точном наблюдении как о наборе менее точных наблюдений).
Для та же формула, что и выше.
Для шума, связанного с наблюдением, мне интересно, если в дополнение к формуле выше, я должен добавить поправочный член к шуму, потому что я перемещаю точку данных вокруг. По сути, я бы получил увеличение неопределенности, которое связано с и (соответственно, дисперсия сигнала и масштаб длины ковариационной функции). Я не уверен в форме этого термина, но у меня есть некоторые предварительные идеи о том, как его вычислить, учитывая ковариационную функцию.
Прежде чем продолжить, я подумал, что там уже что-то есть; и если это кажется разумным путем, или есть более быстрые методы.
Самая близкая вещь, которую я мог найти в литературе, это статья: Э. Снелсон и З. Гахрамани, « Разреженные процессы Гаусса с использованием псевдо-входов» , NIPS '05; но их метод (относительно) вовлекает, требуя оптимизации, чтобы найти псевдо-входы.
Ответы:
Отличный вопрос, и то, что вы предлагаете, звучит разумно. Однако лично я поступил бы иначе, чтобы быть эффективным. Как вы сказали, две близкие точки дают мало дополнительной информации, и, следовательно, эффективные степени свободы модели меньше, чем количество наблюдаемых точек данных. В таком случае, возможно, стоит использовать метод Nystroms, который хорошо описан в GPML (главу о разреженных аппроксимациях можно увидеть http://www.gaussianprocess.org/gpml/ ). Этот метод очень прост в реализации, и недавно было доказано, что он очень высок, Rudi et al. ( http://arxiv.org/abs/1507.04717 )
источник
Я также исследовал слияние наблюдений при выполнении регрессии Гауссова процесса. В моей задаче у меня есть только один ковариат.
Я не уверен, что обязательно согласен с тем, что приближение Nystrom является предпочтительным. В частности, если на основе объединенного набора данных можно найти достаточное приближение, вычисления могут быть быстрее, чем при использовании приближения Нистрома.
Ниже приведены некоторые графики, показывающие 1000 точек данных и среднее значение задней части GP, среднее значение задней части GP с объединенными записями и среднее значение задней части GP с использованием приближения Nystrom. Записи были сгруппированы на основе равных по размеру сегментов упорядоченного ковариата. Порядок аппроксимации относится к числу групп при объединении записей и порядку аппроксимации Нистрома. Подход слияния и аппроксимация Nystrom дают результаты, идентичные стандартной регрессии GP, когда порядок аппроксимации равен количеству точек.
В этом случае, когда порядок приближения равен 10, подход слияния кажется предпочтительным. Когда порядок равен 20, среднее из приближения Нистрома визуально неотличимо от точного апостериорного среднего значения, хотя среднее, основанное на слиянии наблюдений, вероятно, достаточно хорошее. Когда порядок 5, оба довольно бедны.
источник