Прилагаемый набор данных показывает приблизительно 6000 саженцев в приблизительно 50 лесных промежутках переменного размера. Мне интересно узнать, как эти саженцы растут в пределах их соответствующих пробелов (то есть кластеризованных, случайных, рассеянных). Как вы знаете, традиционный подход состоял бы в том, чтобы запустить Global Moran's I. Однако скопления деревьев в скоплениях промежутков, по-видимому, являются нецелесообразным использованием Moran I. Я провел несколько тестовых статистик с Moran's I, используя пороговое расстояние 50 метров, который дал бессмысленные результаты (т. е. р-значение = 0,0000000 ...). Взаимодействие между скоплениями пробелов, вероятно, дает эти результаты. Я рассмотрел вопрос создания сценария для прохождения отдельных пробелов купола и определения кластеризации внутри каждого пробела, хотя отображение этих результатов для общественности было бы проблематичным.
Каков наилучший подход для количественной оценки кластеризации внутри кластеров?
Ответы:
У вас нет однородного случайного поля, поэтому попытка проанализировать все ваши данные сразу нарушит допущения любой статистики, которую вы выберете для решения проблемы. Из вашего поста неясно, являются ли ваши данные отмеченным точечным процессом (т. Е. Диаметром или высотой, связанной с каждым местоположением дерева). Если эти данные не представляют отмеченный точечный процесс, я понятия не имею, как вы применили Моран-I. Если данные представляют только пространственные местоположения, я бы рекомендовал использовать Ripley's-K с преобразованием Безаг-L, чтобы стандартизировать нулевое ожидание в нуле. Это позволяет проводить оценку кластеризации в нескольких масштабах. Если ваши данные имеют ассоциированное значение, то ваш лучший вариант - местный Моран-I (LISA). Я бы на самом деле посмотрел на это с обеих статистик. Независимо от вашего выбора, Вам все равно нужно будет пройтись по каждому отдельному сайту, чтобы получить достоверные результаты. Вот пример кода R для симуляции Монте-Карло Ripley's-K / Besag's-L с использованием встроенного набора данных саженцев из красного дерева. Это должно быть довольно просто изменить, чтобы пройтись по вашим сайтам и создать график для каждого из них.
источник
То, что у вас есть, это точечный шаблон с окном, которое представляет собой множество небольших разрозненных многоугольных областей.
Вы должны быть в состоянии использовать любой из тестов
package:spatstat
для CSR, если вы вводите его с правильным окном. Это может быть либо количество наборов (x, y) пар, определяющих каждую очистку, либо двоичная матрица значений (0,1) в пространстве.Сначала давайте определим что-то похожее на ваши данные:
и давайте притворимся, что наши расчеты - это квадратные ячейки, которые просто таковы:
Таким образом, мы можем построить K-функцию этих точек в этом окне. Мы ожидаем, что это будет не CSR, потому что точки кажутся сгруппированными внутри ячеек. Обратите внимание, что я должен изменить диапазон расстояний, чтобы он был небольшим - порядка размера ячейки - в противном случае K-функция оценивается на расстоянии, равном размеру всего шаблона.
Если мы сгенерируем несколько точек CSR в тех же ячейках, мы сможем сравнить графики K-функций. Этот должен быть больше похож на CSR:
На самом деле вы не можете видеть точки, сгруппированные в ячейках в первом шаблоне, но если вы строите их самостоятельно в графическом окне, это ясно. Точки во втором шаблоне являются однородными внутри ячеек (и не существуют в черной области), и K-функция явно отличается от
Kpois(r)
K-функции CSR для кластеризованных данных и аналогична для однородных данных.источник
В дополнение к посту Энди:
То , что вы хотите вычислить является мерой пространственной однородности (эрго гипотезы: «группируются ваши очки?») , Такие как L Рипли и функции K .
Это сообщение в блоге объясняет, как в R довольно хорошо. Основываясь на описанном коде, я сначала маркировал бы каждый кластер в вашем наборе данных, а затем вычислял в цикле для каждого кластера критическую оболочку через K Рипли.
источник