Я получаю некоторые данные с количеством образцов с просьбой интерполировать их методом кригинга.
После некоторого исследования оказалось, что результаты кригинга (выполненные в ArcGIS Geostatistical Analyst с параметрами по умолчанию) не являются удовлетворительными. Интерполированные значения сильно отличаются от измерений (особенно верхних), и поверхность не выглядит надежной. Вот картина:
я полагаю, что основная проблема заключается в недостаточном количестве образцов.
Сколько очков мы должны использовать, чтобы получить надежные результаты?
Или, может быть, метод кригинга не подходит для таких отклоненных значений?
Ответы:
Когда вы используете «значения по умолчанию», вы на самом деле не кригинг, вы просто применяете алгоритм кригинга - который, как вы обнаружили, плох при работе с этими данными.
(Я кратко расскажу о мыльнице: на мой взгляд, самый быстрый способ получить плохие результаты с помощью компьютерной программы - это принять параметры по умолчанию. ArcGIS - одна из самых богатых и мощных сред для получения плохих результатов. Мораль такова: не пользуйтесь программным обеспечением для важной работы, пока не поймете, как им управлять. Сейчас из мыльницы ...)
Чтобы заставить работать, вам необходимо провести интенсивный предварительный статистический анализ данных, известных как «вариография». Насколько хорошо это в конечном итоге работает, зависит от данных, а также от ваших геостатистических навыков. (Целые книги были написаны о вариографии, включая основополагающую информацию о горнодобывающей промышленности от Journel & Huijbregts и Variowin Ивана Паннтье.) Хотя люди успешно кригнули всего семь точек данных (в монографии Роберта Джернигана, опубликованной Агентством по охране окружающей среды США в в конце 1980-х годов), и в принципе вы можете использовать только две или три точки (я сделал это, чтобы продемонстрировать алгоритм ), практические правила в литературе варьируются от минимум 20 до 100 баллов и консенсуса кажется, около 30 баллов.
В вашем случае - хотя вы не описываете данные - у вас есть некоторые явные проблемы, включая сильно искаженное распределение и явное отсутствие доказательств стационарности. Это требует специальной статистической обработки или специальных форм кригинга (таких как пространственная обобщенная линейная модель). Вы не получите хороших результатов при обработке таких данных, пока у вас не будет очень большого объема данных.
Легенда предполагает, что вы, возможно, пытаетесь создать сетку плотности, а не фактически интерполировать данные: хотя выходные данные двух процедур могут выглядеть одинаково, они делают совершенно разные вещи и имеют совершенно разные интерпретации. Вы интерполируете, когда данные считаются образцами с некоторой гипотетической непрерывной поверхности. Интерполяция предсказывает несэмплированные значения. Стандартные примеры включают измерения высоты (которые определяют поверхность Земли) и измерения температуры (которые определяют «температурное поле»). Вы вычисляете плотность, когда у вас есть полная информация о суммечего-то, и вы хотите представить сглаженную версию этой суммы на единицу площади. (В отличие от интерполяции, не существует каких-либо несэмплированных значений для прогнозирования.) Стандартным примером является плотность населения: данные являются подсчетами всех людей в пределах области; На выходе получается карта плотности населения.
источник
Есть два отдельных вопроса, во-первых, количество местоположений данных, которые будут использоваться при оценке / моделировании вариограммы, и, во-вторых, количество местоположений данных, которые будут использоваться в уравнениях кригинга для интерполяции значения в местоположении без данных (или для оценки среднего значения над регионом). Предполагая, что вы используете подвижную область поиска, более 15-20 местоположений данных в окрестности, вероятно, ухудшат результаты, потому что (1) только самые близкие местоположения данных в окрестности поиска будут иметь ненулевые веса, (2) с большим количеством данных В местах, где размер матрицы, подлежащей обращению, больше, и вероятность плохой обусловленности матрицы возрастает. Общее количество местоположений данных, необходимых для кригинга, зависит от количества местоположений, которые должны быть интерполированы, и пространственных структур этих точек, а также от местоположений данных. Короче говоря,
Что касается оценки / моделирования вариограммы, это совсем другая проблема, см., Например,
1991, Майерс, Д.Е. Об оценке вариограмм в материалах Первого Интер. Conf. Стат. Comp., Чешме, Турция,
30 марта - 2 апреля 1987 г., том II, American Sciences Press, 261-281
1987, A. Warrick и DE Myers, Оптимизация мест отбора проб для расчетов вариограмм. Исследование водных ресурсов 23, 496-500.
Их можно скачать по адресу www.u.arizona.edu/~donaldm.
источник