Надежные альтернативы Морану I

19

Морана I , мера пространственной автокорреляции, не является особенно надежной статистикой (она может быть чувствительной к искаженному распределению атрибутов пространственных данных).

Какие существуют более надежные методы измерения пространственной автокорреляции? Меня особенно интересуют решения, которые легко доступны / могут быть реализованы на языке сценариев, например R. Если решения применимы к уникальным обстоятельствам / распределению данных, укажите их в своем ответе.


РЕДАКТИРОВАТЬ : я расширяю вопрос с несколькими примерами (в ответ на комментарии / ответы на оригинальный вопрос)

Было высказано предположение, что методы перестановки (где распределение выборки Морана I генерируется с использованием процедуры Монте-Карло) предлагают надежное решение. Насколько я понимаю, такой тест устраняет необходимость делать какие-либо предположения о распределении Морана I (учитывая, что на статистику теста может влиять пространственная структура набора данных), но я не вижу, как метод перестановки корректирует ненормально распределенные атрибуты данных . Я предлагаю два примера: один демонстрирует влияние искаженных данных на локальную статистику I Морана, другой - на глобальную I I - даже при тестах перестановки.

Я буду использовать Zhang et al. s (2008) анализирует как первый пример. В своей статье они показывают влияние распределения атрибутных данных на локальный Моран I с помощью тестов перестановки (9999 симуляций). Я воспроизвел результаты «горячей точки» авторов для концентраций свинца (Pb) (при уровне достоверности 5%), используя исходные данные (левая панель) и логарифмическое преобразование этих же данных (правая панель) в GeoDa. Также представлены коробочные графики исходных и log-трансформированных концентраций свинца. Здесь число значительных горячих точек почти удваивается при преобразовании данных; Этот пример показывает , что локальная статистика является чувствительным к распределению данных атрибутов - даже при использовании методов Монте - Карло!

введите описание изображения здесь

Второй пример (смоделированные данные) демонстрирует влияние искаженных данных, которые могут оказать на глобальное значение Морана I , даже при использовании перестановочных тестов. Пример в R , следующий:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Обратите внимание на разницу в P-значениях. Перекошенные данные указывают на то, что нет кластеризации при уровне значимости 5% (p = 0,167), тогда как нормально распределенные данные указывают на наличие (p = 0,013).


Чаошен Чжан, Лин Луо, Вейлин Сюй, Валери Ледвит, Использование местных Моран I и ГИС для определения горячих точек загрязнения свинца в городских почвах Голуэя, Ирландия, Наука об общей окружающей среде, том 398, выпуски 1–3, 15 июля 2008 года Страницы 212-221

MannyG
источник
1
У вас есть ссылка на чувствительность к перекосам)? Вас интересуют глобальные тесты неслучайного пространственного распределения или выявления локальных аномальных особенностей? Каково распределение результатов интереса (переменная положительного числа?)
Энди У
1
AndyW: 1) Одна ссылка на чувствительность теста - это «Пространственный анализ, руководство для экологов» Фортина и Дейла (стр. 125), 2) меня интересуют решения как для глобальных, так и для локальных тестов, 3) у меня нет конкретных Распределение данных в виду.
MannyG
1
Энди, поскольку Моран I основан на взвешенных оценках дисперсии и ковариации, он будет иметь ту же чувствительность к выбросам, что и эти оценки, что (как известно) является значительным. Это понимание также указывает путь ко многим возможным решениям проблемы Мэнни: замените ваши любимые надежные версии оценок дисперсии и ассоциации, чтобы сформировать надежную взвешенную корреляцию, и все готово.
whuber
1
Похоже, что вы можете смешивать несколько понятий здесь, @Анди. Во-первых, Мэнни хочет измерить автокорреляцию; он не обязательно проводит проверку гипотезы. Во-вторых, вопрос с проверкой гипотез лучше всего сформулировать с точки зрения силы, а не надежности. Но (в-третьих) концепции действительно имеют связь: надежная тестовая статистика будет иметь тенденцию сохранять свою силу при широком диапазоне нарушений допущений распределения (таких как загрязнение выбросами), тогда как нестабильная тестовая статистика может потерять большинство или все его сила в этих ситуациях.
whuber
1
@ FC84, я вернулся к этой проблеме в прошлом году и написал предложенное решение. Но это требует проверки. Я планирую предложить (значительно) сокращенную версию этой статьи в качестве ответа здесь в какой-то момент. Не стесняйтесь подбирать то, что вы можете из того, что у меня есть. Но используйте это с осторожностью!
MannyG

Ответы:

2

(Это слишком громоздко, чтобы превращаться в комментарий)

Это относится к локальным и глобальным тестам (не конкретная, независимая от образца мера автокорреляции). Я могу оценить, что конкретная мера Морана I является предвзятой оценкой корреляции (интерпретируя ее в тех же терминах, что и коэффициент корреляции Пирсона), я до сих пор не вижу, насколько тест гипотезы перестановки чувствителен к исходному распределению переменной ( либо с точки зрения ошибок типа 1 или 2).

Немного адаптировал код, который вы указали в комментарии (пространственные веса colqueenотсутствовали);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Когда кто-то проводит тесты перестановки (в данном случае мне нравится думать о нем, как о беспорядочном пространстве), на проверку гипотезы глобальной пространственной автокорреляции не должно влиять распределение переменной, поскольку моделируемое распределение тестов по сути изменится с распределением исходных переменных. Вероятно, можно было бы придумать более интересные симуляции, чтобы продемонстрировать это, но, как вы можете видеть в этом примере, наблюдаемая тестовая статистика находится далеко за пределами сгенерированного распределения как для исходного, так PLUMBи для зарегистрированного PLUMB(что намного ближе к нормальному распределению) , Хотя вы можете увидеть зарегистрированное распределение теста PLUMB при нулевых сдвигах ближе к симметрии около 0.

введите описание изображения здесь

В любом случае я собирался предложить это в качестве альтернативы, превратив распределение в примерно нормальное. Я также собирался предложить поиск ресурсов по пространственной фильтрации (и аналогично локальной и глобальной статистике Getis-Ord), хотя я не уверен, что это также поможет с измерением без масштаба (но, возможно, может быть полезным для проверки гипотез) , Я отправлю позже с потенциально большим количеством литературы, представляющей интерес.

Энди У
источник
Спасибо Энди за ваш подробный отчет. Если я вас правильно понимаю, вы подразумеваете, что в тесте перестановок тестовая статистика (I Морана) не изменится относительно полученного распределения MC, но это не согласуется с моими наблюдениями. Например, если мы используем переменную HOVAL в том же наборе данных columbus, результирующее значение p теста I Морана I возрастает с 0,029 (с исходными асимметричными данными) до 0,004 (с преобразованными логарифмическими данными), что указывает на увеличение разрыва между MC статистика распределения и тестирования - немаловажно, если мы установили порог в 1%.
MannyG
1
Да, вы правильно поняли мою точку зрения. Конечно, можно найти любой конкретный прогон, в котором результаты отличаются. Возникает вопрос: одинаковы ли коэффициенты ошибок при различных обстоятельствах?
Энди W