Морана I , мера пространственной автокорреляции, не является особенно надежной статистикой (она может быть чувствительной к искаженному распределению атрибутов пространственных данных).
Какие существуют более надежные методы измерения пространственной автокорреляции? Меня особенно интересуют решения, которые легко доступны / могут быть реализованы на языке сценариев, например R. Если решения применимы к уникальным обстоятельствам / распределению данных, укажите их в своем ответе.
РЕДАКТИРОВАТЬ : я расширяю вопрос с несколькими примерами (в ответ на комментарии / ответы на оригинальный вопрос)
Было высказано предположение, что методы перестановки (где распределение выборки Морана I генерируется с использованием процедуры Монте-Карло) предлагают надежное решение. Насколько я понимаю, такой тест устраняет необходимость делать какие-либо предположения о распределении Морана I (учитывая, что на статистику теста может влиять пространственная структура набора данных), но я не вижу, как метод перестановки корректирует ненормально распределенные атрибуты данных . Я предлагаю два примера: один демонстрирует влияние искаженных данных на локальную статистику I Морана, другой - на глобальную I I - даже при тестах перестановки.
Я буду использовать Zhang et al. s (2008) анализирует как первый пример. В своей статье они показывают влияние распределения атрибутных данных на локальный Моран I с помощью тестов перестановки (9999 симуляций). Я воспроизвел результаты «горячей точки» авторов для концентраций свинца (Pb) (при уровне достоверности 5%), используя исходные данные (левая панель) и логарифмическое преобразование этих же данных (правая панель) в GeoDa. Также представлены коробочные графики исходных и log-трансформированных концентраций свинца. Здесь число значительных горячих точек почти удваивается при преобразовании данных; Этот пример показывает , что локальная статистика является чувствительным к распределению данных атрибутов - даже при использовании методов Монте - Карло!
Второй пример (смоделированные данные) демонстрирует влияние искаженных данных, которые могут оказать на глобальное значение Морана I , даже при использовании перестановочных тестов. Пример в R , следующий:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Обратите внимание на разницу в P-значениях. Перекошенные данные указывают на то, что нет кластеризации при уровне значимости 5% (p = 0,167), тогда как нормально распределенные данные указывают на наличие (p = 0,013).
Чаошен Чжан, Лин Луо, Вейлин Сюй, Валери Ледвит, Использование местных Моран I и ГИС для определения горячих точек загрязнения свинца в городских почвах Голуэя, Ирландия, Наука об общей окружающей среде, том 398, выпуски 1–3, 15 июля 2008 года Страницы 212-221
источник
Ответы:
(Это слишком громоздко, чтобы превращаться в комментарий)
Это относится к локальным и глобальным тестам (не конкретная, независимая от образца мера автокорреляции). Я могу оценить, что конкретная мера Морана I является предвзятой оценкой корреляции (интерпретируя ее в тех же терминах, что и коэффициент корреляции Пирсона), я до сих пор не вижу, насколько тест гипотезы перестановки чувствителен к исходному распределению переменной ( либо с точки зрения ошибок типа 1 или 2).
Немного адаптировал код, который вы указали в комментарии (пространственные веса
colqueen
отсутствовали);Когда кто-то проводит тесты перестановки (в данном случае мне нравится думать о нем, как о беспорядочном пространстве), на проверку гипотезы глобальной пространственной автокорреляции не должно влиять распределение переменной, поскольку моделируемое распределение тестов по сути изменится с распределением исходных переменных. Вероятно, можно было бы придумать более интересные симуляции, чтобы продемонстрировать это, но, как вы можете видеть в этом примере, наблюдаемая тестовая статистика находится далеко за пределами сгенерированного распределения как для исходного, так
PLUMB
и для зарегистрированногоPLUMB
(что намного ближе к нормальному распределению) , Хотя вы можете увидеть зарегистрированное распределение теста PLUMB при нулевых сдвигах ближе к симметрии около 0.В любом случае я собирался предложить это в качестве альтернативы, превратив распределение в примерно нормальное. Я также собирался предложить поиск ресурсов по пространственной фильтрации (и аналогично локальной и глобальной статистике Getis-Ord), хотя я не уверен, что это также поможет с измерением без масштаба (но, возможно, может быть полезным для проверки гипотез) , Я отправлю позже с потенциально большим количеством литературы, представляющей интерес.
источник