Что такое соответствующая статистика для измерения пространственной автокорреляции точек с двоичными значениями?

9

Я пытаюсь определить уровень пространственной автокорреляции в наборе точечных данных. Интересующий меня атрибут - бинарный (наличие / отсутствие вида), для которого Морана I не подходит. С другой стороны, статистика совместного подсчета, которая обычно рекомендуется для двоичных или категориальных данных, очевидно, не подходит для точечных данных. Короче говоря, вопрос заключается в следующем: какова соответствующая статистика для измерения глобальной и / или локальной пространственной автокорреляции точек, когда интересующий атрибут является двоичным?

user13706
источник

Ответы:

4

Ваше утверждение о том, что статистика Join-Counts не подходит для двоичных данных, неверно. Это просто вопрос того, как определяется матрица пространственных весов (Wij). Как и в Morna's-I, вы не можете использовать матрицу расстояний в этом типе анализа. Тем не менее, соответствующая двоичная матрица непредвиденных обстоятельств может быть рассчитана с использованием ограничения по расстоянию. Вы можете создать этот тип матрицы пространственных весов, а также провести анализ Join-Count в библиотеке R spdep. См. Функции "joincount.test" и joincount.mc (для теста перестановки Монте-Карло).

Джеффри Эванс
источник
Спасибо, Джеффри. Объединенные подсчеты, несомненно, являются подходящим способом для двоичных данных, но я увидел предположение (не могу вспомнить, где, сейчас), что объединенные подсчеты были подходящими только для данных области (не точечных). Мне было непонятно, почему вы не можете создать матрицу весов, используя порог расстояния, и использовать общий счет, но я не смог найти примеры этого в некоторых кратких поисках. Можете ли вы дать ссылку на этот тип использования?
user13706
Это большая литература по анализу точечных паттернов. Статистика Join-Counts обычно не используется и, как таковая, не очень распространена в современной литературе. Я бы вернулся к ранней работе Диггла или Гейтса. Какова ваша цель в количественном определении пространственной зависимости в биномиальных данных? Вы не можете использовать коэффициент Join-Counts в чем-то вроде смешанных эффектов или модели CAR / SAR. Вот некоторые интересные сведения о масштабировании моделей занятости ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )
Джеффри Эванс,
1
RandomForest является непараметрической моделью и, как таковая, не зависит от автокорреляции. Проблема с этой моделью - корреляция в ансамбле начальной загрузки. Часто автокорреляция может создать «избыточность» в ваших данных, которая создает смещение в Bootstrap. Я бы посмотрел на основе условного распределения (ов) ваших ковариат. У меня есть R-код "R - плотностная плотность вероятности по группирующему фактору" здесь: conserveonline.org/workspaces/emt/documents/all.html
Джеффри Эванс,
1
О, я бы не стал обобщать РФ как полностью черный ящик. Это на самом деле не так. Эту модель часто называют «серой коробкой». Поскольку автокорреляция в основном влияет на допущения IID в распространенных методах, это довольно безопасное утверждение, что непараметрические допущения не нарушаются.
Джеффри Эванс
1
Мы обобщаем «непараметрическую» статистику. Это охватывает много методов. Если вы посмотрите на доказательства Бримена 2001 года, то увидите, что РФ не предполагает независимости. Книга Хэсти "Элементы статистического обучения" обеспечивает прочную статистическую базу для теории выборки в отношении методов машинного обучения. Как указывалось ранее, проблема заключается в корреляции в ансамбле, которая, безусловно, может быть вызвана псевдорепликацией / автокорреляцией. Тем не менее, это не модельное предположение в РФ. Тем не менее, если этого достаточно, чистый эффект предвзятости или перебора очевиден.
Джеффри Эванс
0

Двоичные данные - это обычный вариант использования пространственной автокорреляции. Я думаю, что большая часть книги пространственного анализа будет говорить об этом. Этот документ может быть полезен.

mfdev
источник
1
На первой странице вашей ссылки подчеркивается, что «местоположения данных - это регионы », поэтому похоже, что они вообще не применяются к точечным данным.
whuber
-1

Ваши данные могут быть проанализированы с использованием методов «Point Pattern Analysis». В частности, «Рипли К», скорее всего, будет лучшим для вас.

Хороший обзор здесь: http://www.people.vcu.edu/~dbandyop/pubh8472/RipleysK.pdf

user67172
источник