Что это за процедуры
Хотя OLS и GWR разделяют многие аспекты их статистической формулировки, они используются для различных целей:
- OLS формально моделирует глобальные отношения определенного рода. В своей простейшей форме каждая запись (или случай) в наборе данных состоит из значения x, установленного экспериментатором (часто называемого «независимой переменной»), и другого значения y, которое наблюдается («зависимая переменная») ). МНК предполагает, что у примерноотносящиеся к x особенно простым способом: а именно, существуют (неизвестные) числа «a» и «b», для которых a + b * x будет хорошей оценкой y для всех значений x, в которых может заинтересоваться экспериментатор , «Хорошая оценка» признает, что значения y могут и будут отличаться от любого такого математического предсказания, потому что (1) они действительно делают - природа редко бывает так же проста, как математическое уравнение - и (2) y измеряется с некоторыми ошибка. В дополнение к оценке значений a и b, OLS также определяет количество вариаций y. Это дает OLS возможность установить статистическую значимость параметров a и b.
Вот подходит OLS:
- GWR используется для изучения местных отношений. В этом параметре все еще есть пары (x, y), но теперь (1) обычно наблюдаются оба x и y - ни один не может быть заранее определен экспериментатором - и (2) каждая запись имеет пространственное расположение, z , Для любого местоположения, z (не обязательно даже того, где данные доступны), GWR применяет алгоритм OLS к соседним значениям данных, чтобы оценить зависящее от местоположения отношение между y и x в форме y = a (z) + b (z) *Икс. Обозначение «(z)» подчеркивает, что коэффициенты a и b варьируются в зависимости от местоположения. Таким образом, GWR представляет собой специализированную версию локально взвешенных сглаживателей.в котором только пространственные координаты используются для определения окрестностей. Его вывод используется, чтобы предложить, как значения x и y коваризуются в пространственной области. Примечательно, что часто нет причин выбирать, какие из 'x' и 'y' должны играть роль независимой переменной и зависимой переменной в уравнении, но когда вы поменяете эти роли, результаты изменятся ! Это одна из многих причин, по которой GWR следует считать исследовательской - визуальной и концептуальной помощью для понимания данных - а не формальным методом.
Здесь локально взвешенный гладкий. Обратите внимание, как он может следовать за видимыми «колебаниями» в данных, но не проходит точно через каждую точку. (Можно сделать так, чтобы проходить через точки или следовать меньшим покачиваниям, изменив настройку в процедуре, точно так же, как можно сделать GWR для более или менее точного отслеживания пространственных данных путем изменения настроек в своей процедуре.)
Интуитивно, думайте об OLS как о том, что он подгоняет жесткую форму (например, линию) к диаграмме рассеяния пар (x, y), а GWR позволяет этой форме произвольно покачиваться.
Выбор между ними
В данном случае, хотя неясно, что могут означать «две отдельные базы данных», кажется, что использование OLS или GWR для «проверки» отношений между ними может быть неуместным. Например, если базы данных представляют независимые наблюдения одного и того же количества в одном и том же наборе местоположений, то (1) OLS, вероятно, неуместно, поскольку оба x (значения в одной базе данных) и y (значения в другой базе данных) должны быть воспринимается как изменяющийся (вместо того, чтобы думать о х как о фиксированном и точно представленном) и (2) GWR отлично подходит для изучения взаимосвязи между х и у, но его нельзя использовать для проверкивсе: гарантированно найти отношения, не смотря ни на что. Более того, как отмечалось ранее, симметричные роли «двух баз данных» указывают, что одну из них можно выбрать как «x», а другую как «y», что приводит к двум возможным результатам GWR, которые гарантированно будут отличаться.
Вот локально взвешенное сглаживание тех же данных, поменяв ролями x и y. Сравните это с предыдущим сюжетом: обратите внимание, насколько круче общая подгонка и насколько она отличается в деталях.
Различные методы необходимы для установления того, что две базы данных предоставляют одну и ту же информацию, или для оценки их относительного смещения или относительной точности. Выбор метода зависит от статистических свойств данных и цели валидации. Например, базы данных химических измерений обычно сравниваются с использованием методов калибровки .
Интерпретация I Морана
Трудно сказать, что означает «я Морана для модели GWR». Я предполагаю, что статистика Морана I, возможно, была вычислена для остатков вычисления GWR. (Остатки - это различия между фактическими и подобранными значениями.) I Морана является глобальной мерой пространственной корреляции. Если он небольшой, это говорит о том, что различия между значениями y и подгонками GWR из значений x имеют небольшую пространственную корреляцию или не имеют ее вообще. Когда GWR «настроен» на данные (это включает принятие решения о том, что действительно является «соседом» какой-либо точки), следует ожидать низкой пространственной корреляции в остатках, потому что GWR (неявно) использует любую пространственную корреляцию между x и y значения в его алгоритме.
Rsquared не следует использовать для сравнения моделей. Используйте значения журнала likihood или AIC.
Если ваши остатки в GWR являются случайными, или я предполагаю, что они случайные (не статистически достоверные), чем у вас может быть указанная модель. По крайней мере, это говорит о том, что у вас нет коррелированных невязок, и о том, что у вас нет пропущенных переменных.
источник