Почему вы должны предоставить модель вариограммы во время кригинга?

9

Я очень плохо знаком с пространственной статистикой и смотрю много уроков,

Но я не совсем понимаю, почему вы должны предоставить модель вариограммы, когда кригите.

Я использую пакет gstat в R, и это пример, который они дают:

library(sp)
data(meuse)
coordinates(meuse) = ~x+y
data(meuse.grid)
str(meuse.grid)
gridded(meuse.grid) = ~x+y
m <- vgm(.59, "Sph", 874, .04)
print(m)
# ordinary kriging:
x <- krige(log(zinc)~1, meuse, meuse.grid, model = m)

Кто-нибудь может объяснить в двух строчках, почему вы сначала должны предоставить vgm? А как вы устанавливаете параметры?

Заранее спасибо! Kasper

Kasper
источник
Для простого кригинга оценка является СИНИЙ, только если среднее значение и пространственная ковариация известны заранее. В обычном кригинге оценивают вариограмму по данным, а затем выполняют интерполяцию. Смотрите виньетку из gstatпакета R с теми же данными о мезе.
Энди В.
Привет, Энди, спасибо за твой комментарий. В виньетке я обнаружил, что вы также можете кригить без модели вариограммы. Я сделал следующее: krige (residuals ~ 1, temp_plot_spatial, y, nmin = 5, nmax = 10), так что krige просто смотрит на минимум 5 соседей и максимум 10. Имеет ли это какой-то смысл? Результат был довольно
Каспер
Я думаю, что у меня есть проблема с моделированием вариограммы: что, если вы предполагаете, что корреляция не имеет ничего общего с расстоянием, а с ближайшими соседями?
Каспер
«Что если вы предполагаете, что корреляция не имеет ничего общего с расстоянием, а с ближайшими соседями?» - тогда это не кригинг, это больше соответствует классификации knn. Код krige(residuals~1 ,temp_plot_spatial, y, nmin=5, nmax=10)оценивает локальные вариограммы. Например, у вас нет вариограммы по всему учебному пространству, но оцените новую модель для каждого местоположения, которое вы пытаетесь предсказать. Локальная модель затем захватывает только ближайшие 10 значений (поскольку вы не указываете максимальное расстояние, она всегда должна захватывать 10 значений, поэтому nminдолжна быть лишней).
Энди В.
1
Тогда оценка локальных вариограмм логична. Если они различаются в зависимости от определенных функций, в том числе и другие предикторы в модели IDW может считаться самым простым типом модели кригинга - поэтому IDW должен быть не лучше, чем фактическая оценка вариограммы по данным.
Энди В.

Ответы:

9

Введение и резюме

Закон географии Тоблера утверждает

Все связано со всем остальным, но близкие вещи больше связаны, чем далекие вещи.

Кригинг принимает модель тех отношений, в которых

  • «Вещи» - это числовые значения в местах на поверхности Земли (или в космосе), обычно представляемые в виде евклидовой плоскости.

  • Предполагается, что эти числовые значения являются реализациями случайных величин.

  • «Связанный» выражается в терминах средних значений и ковариаций этих случайных величин.

(Коллекция случайных величин, связанных с точками в пространстве, называется «случайным процессом».) Вариограмма предоставляет информацию, необходимую для вычисления этих ковариаций.

Что такое кригинг

Кригинг определенно является предсказанием вещей в местах, где они не наблюдались. Чтобы сделать процесс прогнозирования математически управляемым, Кригинг ограничивает возможные формулы линейными функциями наблюдаемых значений. Это делает задачу конечной из определения того, какими должны быть коэффициенты. Их можно найти, потребовав, чтобы процедура прогнозирования имела определенные свойства. Интуитивно понятно, что отличным свойством является то, что различия между предиктором и истинным (но неизвестным) значением должны быть небольшими: то есть предиктор должен быть точным . Другое свойство, которое широко рекламируется, но более сомнительно, заключается в том, что в среднем предиктор должен равняться истинному значению: оно должно быть точным .

(Причина, по которой настаивать на идеальной точности сомнительна, но не обязательно плоха, заключается в том, что она обычно делает любую статистическую процедуру менее точной, то есть более изменчивой. При стрельбе по цели вы предпочитаете равномерно распределять попадания по оправы и редко ударяя по центру, или вы примете результаты, которые сфокусированы только рядом, но не точно на центре? Первый точный, но неточный, а второй неточный, но точный.)

Эти допущения и критерии - это значит, что ковариации являются подходящими способами количественной оценки родства, что линейный прогноз будет работать, и что предиктор должен быть как можно более точным при условии его абсолютной точности, - привести к системе уравнений, которая имеет Уникальное решение при условии, что ковариации были определены в последовательном порядке . Результирующий предиктор, таким образом, называется «BLUP»: лучший линейный несмещенный предиктор.

Где приходит вариограмма

Нахождение этих уравнений требует практической реализации только что описанной программы. Это делается путем записи ковариаций между предиктором и наблюдениями, которые рассматриваются как случайные величины. Алгебра ковариаций вызывают ковариации среди наблюдаемых значений , чтобы войти в Кригинге уравнений, тоже.

В этот момент мы заходим в тупик, потому что эти ковариации почти всегда неизвестны. В конце концов, в большинстве приложений мы наблюдали только одну реализацию каждой из случайных величин: а именно, наш набор данных, который составляет всего одно число в каждом отдельном месте. Введите вариограмму: эта математическая функция сообщает нам, какой должна быть ковариация между любыми двумя значениями. Он ограничен для обеспечения того, чтобы эти ковариации были «последовательными» (в том смысле, что они никогда не дадут набор ковариаций, которые математически невозможны: не все наборы числовых показателей «связанности» будут формировать фактические ковариационные матрицы ). Вот почему вариограмма необходима для кригинга.

Ссылки

Поскольку на немедленный вопрос был дан ответ, я остановлюсь здесь. Заинтересованные читатели могут узнать, как оценивают и интерпретируют вариограммы, обратившись к хорошим текстам, таким как «Журналистика и Хейбрегтс» « Горная геостатистика» (1978) или « Прикладная геостатистика» Исаакса и Шриваставы (1989). (Обратите внимание , что процесс оценки вводит два объекта под названием «вариограммы»: эмпирическая вариограмма на основе данных и модель вариограммы, установленная на нем все ссылки на «вариограмму» в этом ответе есть модели призыва к.. vgmВ этом вопросе возвращает компьютерное представление модельной вариограммы.) Для более современного подхода, в котором оценка вариограммы и Кригинг соответствующим образом комбинируются, см. Diggle &Модель на основе геостатистики (2007) (которая также является расширенным руководством для Rпакетов GeoRи GeoRglm).


Комментарии

Кстати, независимо от того, используете ли вы Кригинг для прогнозирования или какой-либо другой алгоритм, количественная характеристика родства, предоставляемая вариограммой, полезна для оценки любой процедуры прогнозирования. Обратите внимание, что все методы пространственной интерполяции являются предикторами с этой точки зрения, и многие из них являются линейными предикторами, такими как IDW (обратное взвешенное расстояние). Вариограмму можно использовать для оценки среднего значения и дисперсии (стандартного отклонения) любого из методов интерполяции. Таким образом, он имеет применимость далеко за пределами его использования в Kriging.

Whuber
источник
Спасибо за этот подробный ответ. Я задаю тот же вопрос, что и выше, что, если я не могу сделать предположение, что пространственная корреляция не зависит от местоположения? Верно ли, что моделирование вариограммы тогда бесполезно, так как мне нужно было бы сделать модель вариограммы для всех мест? Тогда лучше использовать IDW?
Каспер
Когда вы не можете предположить стационарность процесса второго порядка , тогда несколько вариантов включают: (1) сбор нескольких реализаций процесса (когда он изменяется во времени); (2) оценка вариограмм по локальным субрегионам (когда данных много); и (3) допущение параметрической модели того, как вариограмма изменяется в зависимости от местоположения (как в моделях GARCH для одномерных процессов). Мои последние комментарии прямо касаются нецелесообразности использования чего-то вроде IDW: можете ли вы оценить вариограмму, в принципе она существует, и поэтому IDW обычно неоптимален.
whuber