Что вызывает U-образный рисунок на пространственной коррелограмме?

12

Я заметил в своей работе этот паттерн при изучении пространственной коррелограммы на разных расстояниях, и в корреляциях появляется U-образный паттерн. В частности, сильные положительные корреляции на небольших дистанционных бункерах уменьшаются с расстоянием, затем достигают ямы в определенной точке и затем поднимаются обратно вверх.

Вот пример из блога «Сохранение экологии», площадка для макроэкологии (3) - Пространственная автокорреляция .

Коррелограмма Морана I

Эти более сильные положительные автокорреляции на больших расстояниях теоретически нарушают первый закон географии Тоблера, поэтому я ожидаю, что это будет вызвано каким-то другим паттерном в данных. Я ожидал бы, что они достигнут нуля на определенном расстоянии, а затем колеблются около 0 на дальнейших расстояниях (что обычно происходит на графиках временных рядов с условиями AR или MA низкого порядка).

Если вы выполните поиск изображений в Google, вы можете найти несколько других примеров такого же типа шаблона (см. Здесь еще один пример). Пользователь на сайте ГИС опубликовал два примера, где шаблон появляется для Морана I, но не появляется для Гири C ( 1 , 2 ). В сочетании с моей собственной работой эти шаблоны наблюдаются для исходных данных, но при подборе модели с пространственными терминами и проверке невязок они не сохраняются.

Я не сталкивался с примерами в анализе временных рядов, которые отображают похожий график ACF, поэтому я не уверен, какой шаблон в исходных данных может вызвать это. Scortchi в этом комментарии предполагает, что синусоидальный паттерн может быть вызван отсутствующим сезонным паттерном в этом временном ряду. Может ли тот же тип пространственного тренда вызвать этот паттерн в пространственной коррелограмме? Или это какой-то другой артефакт способа вычисления корреляций?


Вот пример из моей работы. Выборка довольно большая, и светло-серые линии представляют собой набор из 19 перестановок исходных данных для генерации эталонного распределения (поэтому можно увидеть, что дисперсия в красной линии, как ожидается, будет довольно небольшой). Таким образом, хотя сюжет не так драматичен, как показанный первый, яма, а затем подъем на дальнейших расстояниях довольно легко появляются на сюжете. (Также обратите внимание, что яма не отрицательная, как и другие примеры, если это существенно отличает примеры, которых я не знаю.)

введите описание изображения здесь

Вот карта плотности ядра данных, чтобы увидеть пространственное распределение, которое произвело указанную коррелограмму.

KDE Crime in DC

Энди У
источник
1
Я не уверен, что это правильно, поэтому я не публикую его как ответ, но я предполагаю, что на меньших расстояниях очень мало наблюдений, и те, которые очень похожи. На небольших расстояниях больше наблюдений становятся «близкими», но они менее похожи, поэтому эффект размывается. На больших расстояниях все рядом, такие большие, но отдаленные эффекты заставляют отступать. (Пятьдесят за изучение моего родного города, кстати.)I
Sycorax говорит восстановить Monica
Я могу видеть, откуда это исходит от @ user777, хотя я мог бы ожидать аналогичного аргумента, который заставил бы график иметь тенденцию к 0, поскольку асимптотически пространственная окрестность становится больше. То есть, когда соседство становится больше, среднее значение соседства будет ближе к большому среднему. В моей голове (я думаю) это заставит корреляцию стремиться к нулю, хотя не к одному, но я могу легко ошибаться. (Тот же аргумент должен применяться и к временным рядам, и я не помню, чтобы какие-либо графики ACF для временных рядов выглядели так.)
Энди В.
Kde of DC напоминает мне шахматную доску. Как будет выглядеть пространственная автокорреляционная диаграмма с шахматной доски? Интересно, не будет ли он высоким на близких расстояниях (один квадрат), низким немного дальше (другой квадрат) и затем снова выше. Я не знаю достаточно об этой теме, чтобы знать, если это ответ, хотя.
gung - Восстановить Монику
@ Gung, это зависит от того, как вы сформулируете расстояние в этом случае. Для шахматной доски с непрерывностью ферзя это было бы синонимом отрицательного авторегрессивного термина, который для временного ряда приводил бы к тому, что график ACF становился альтернативой положительной и отрицательной корреляции (и волна могла бы затухать, вероятно, очень быстро в этом случае ). Это более сложно, хотя в пространственном анализе, чем во временных рядах. Я бы не охарактеризовал этот паттерн как шахматную доску.
Энди Вт
2
Ваш набор данных действительно не имеет достаточного пространственного охвата, чтобы вы могли оценивать автоковариации на расстоянии 5 километров (вся область не намного больше 10 километров в поперечнике, и вы обычно хотите иметь набор данных, который бы многократно покрывал длина корреляции.) Мне кажется, что у вас есть в основном три «капли» высокой преступности примерно в треугольной форме, с каплями на расстоянии около 5К друг от друга и промежутками между ними. Таким образом, неудивительно видеть положительную корреляцию на этой длине.
Брайан Борчерс

Ответы:

4

объяснение

U-образная коррелограмма является обычным явлением, когда ее расчет выполняется на всем протяжении области, в которой происходит явление. Это проявляется, в частности, в виде плюмоподобных явлений в природе, таких как локализованное загрязнение в почвах или грунтовых водах или, как в этом случае, где это явление связано с плотностью населения, которая обычно уменьшается к границе исследуемой территории (район Колумбия, которая имеет городское ядро ​​высокой плотности и окружена пригородами меньшей плотности).

Напомним, что коррелограмма суммирует степень сходства всех данных в соответствии с их объемом пространственного разделения. Более высокие значения более похожи, более низкие значения менее похожи. В только пары точек , в которых наибольшее пространственное разделение может быть достигнуто те прилегающая на диаметрально противоположных сторонах карты. Следовательно, коррелограмма сравнивает значения вдоль границы друг с другом. Когда значения данных имеют тенденцию к общему уменьшению в направлении границы, коррелограмма может сравнивать только небольшие значения с небольшими значениями. Вероятно, они найдут их очень похожими.

Поэтому для любого подобного шлейфу или другого пространственно-унимодального явления, прежде чем собирать данные , мы можем предвидеть, что коррелограмма, вероятно, будет уменьшаться до тех пор, пока не будет достигнута примерно половина диаметра области, а затем она начнет увеличиваться.

Вторичный эффект: оценка изменчивости

Вторичный эффект заключается в том, что для оценки коррелограммы на коротких расстояниях доступно больше пар точек данных, чем на больших расстояниях. На средних и больших расстояниях "лаговые популяции" таких точечных пар уменьшаются. Это увеличивает изменчивость эмпирической коррелограммы. Иногда одна только эта изменчивость будет создавать необычные закономерности в коррелограмме. Очевидно, большой набор данных был использован на верхнем рисунке («Морана I»), что уменьшает этот эффект, но, тем не менее, увеличение изменчивости проявляется в больших амплитудах локальных колебаний на графике на расстояниях более 3500 или около того: ровно половина максимальное расстояние

Следовательно, давнее эмпирическое правило в пространственной статистике заключается в том, чтобы избегать вычисления коррелограммы на расстояниях, превышающих половину диаметра исследуемой области, и избегать использования таких больших расстояний для прогнозирования (таких как интерполяция).

Почему пространственная периодичность не является полным ответом

В литературе по пространственной статистике действительно отмечается, что пространственно-периодические закономерности могут вызвать отскок в коррелограмме на больших расстояниях. Горные геологи называют это «эффектом дыры». Класс вариограмм, которые включают синусоидальный термин, существует для его моделирования. Однако все эти вариограммы также налагают некоторое сильное затухание с расстоянием и, следовательно, не могут объяснить экстремальный возврат к полной корреляции, показанной на первом рисунке. Более того, в двух или более измерениях невозможно, чтобы явление было как изотропным (в котором корреляционные диаграммы направленности все одинаковы), так и периодическим. Поэтому периодичность одних данных не будет учитывать то, что показано.

Что может быть сделано

Правильный способ действовать в таких обстоятельствах - это признать, что это явление не является стационарным, и принять модель, которая описывает его в терминах некоторой базовой детерминированной формы - «дрейфа» или «тренда» - с дополнительными колебаниями вокруг этого дрейфа. которая может иметь пространственную (и временную) автокорреляцию. Другой подход к таким данным, как количество преступлений, заключается в изучении другой связанной переменной, например, преступности на единицу населения.

Whuber
источник
Спасибо, как вы думаете, требуется ли какое-то специальное взвешивание для краевых эффектов? (Это может быть излишним для исследовательского анализа остатков модели.) Моя диссертация на самом деле использует нелинейные пространственные дрейфы и термины тренда - преступность на единицу населения раздражает по нескольким причинам. Жилищное население на самом деле не является базовой линией интереса - это больше похоже на прогулку по населению. В городских районах это может значительно увеличиться (20 ~ 30 раз) в течение определенных часов и больше связано с учреждениями, не являющимися местами жительства (работа и развлечения).
Энди У,
У вас есть много вариантов, Энди, потому что нет способа идентифицировать уникальную модель: вам нужно решить, где вы хотите прекратить моделирование значений с точки зрения пространственного дрейфа, и начать моделировать их (или, скорее, их остатки) с стохастическая пространственная модель. U-образную коррелограмму можно понимать как убедительный признак того, что необходим некоторый механизм моделирования дрейфа. Нормализация соответствующей группой населения (даже если это может быть только приблизительная оценка) - это один из доступных вам методов. Включение показателей населения (или использования и т. Д.) В качестве ковариат является другим.
whuber
Я подошел ближе, используя только широкий набор мер активности землепользования (бары, автозаправочные станции, больницы, школы и т. Д.) Плюс пространственные термины. Вот карта предсказаний, поддерживающих эти другие ковариаты постоянными . Хотя остаточная автокорреляция все еще присутствует. Я скептически отношусь к той ошибке, которую поможет дазиметрическое картирование населения по малым местам, но я думаю, что в конечном итоге я проведу этот анализ.
Энди W
Это принципиальный подход: пусть теория направляет развитие дрейфовой составляющей модели, а затем оценивает невязки, чтобы решить, стоит ли пытаться моделировать их пространственную автокорреляцию. Во многих случаях большинство видимых пространственных отношений адекватно объясняются смещением, и редко требуется полный геостатистический механизм. Один интригующий аспект вашей проблемы заключается в том, что основной метрикой (пространственным расстоянием), вероятно, должно быть время прохождения или расстояние прохождения по сети улиц, а не евклидово расстояние.
whuber