Модель регрессии и пространственная автокорреляция

15

Я использовал OLS и GWR для проверки зависимостей между двумя различными базами данных. Остаточный квадрат для GWR равен 0,82, что делает его правильной регрессионной моделью для определения взаимосвязи между двумя наборами данных.

Что я хотел знать: GWR - локальная регрессия, а OLS - глобальная регрессия, которую следует использовать где и когда?

Кроме того, что на самом деле означает, что Моран I для модели GWR является случайным?

Sam007
источник

Ответы:

13

Что это за процедуры

Хотя OLS и GWR разделяют многие аспекты их статистической формулировки, они используются для различных целей:

  • OLS формально моделирует глобальные отношения определенного рода. В своей простейшей форме каждая запись (или случай) в наборе данных состоит из значения x, установленного экспериментатором (часто называемого «независимой переменной»), и другого значения y, которое наблюдается («зависимая переменная») ). МНК предполагает, что у примерноотносящиеся к x особенно простым способом: а именно, существуют (неизвестные) числа «a» и «b», для которых a + b * x будет хорошей оценкой y для всех значений x, в которых может заинтересоваться экспериментатор , «Хорошая оценка» признает, что значения y могут и будут отличаться от любого такого математического предсказания, потому что (1) они действительно делают - природа редко бывает так же проста, как математическое уравнение - и (2) y измеряется с некоторыми ошибка. В дополнение к оценке значений a и b, OLS также определяет количество вариаций y. Это дает OLS возможность установить статистическую значимость параметров a и b.

Вот подходит OLS:

введите описание изображения здесь

  • GWR используется для изучения местных отношений. В этом параметре все еще есть пары (x, y), но теперь (1) обычно наблюдаются оба x и y - ни один не может быть заранее определен экспериментатором - и (2) каждая запись имеет пространственное расположение, z , Для любого местоположения, z (не обязательно даже того, где данные доступны), GWR применяет алгоритм OLS к соседним значениям данных, чтобы оценить зависящее от местоположения отношение между y и x в форме y = a (z) + b (z) *Икс. Обозначение «(z)» подчеркивает, что коэффициенты a и b варьируются в зависимости от местоположения. Таким образом, GWR представляет собой специализированную версию локально взвешенных сглаживателей.в котором только пространственные координаты используются для определения окрестностей. Его вывод используется, чтобы предложить, как значения x и y коваризуются в пространственной области. Примечательно, что часто нет причин выбирать, какие из 'x' и 'y' должны играть роль независимой переменной и зависимой переменной в уравнении, но когда вы поменяете эти роли, результаты изменятся ! Это одна из многих причин, по которой GWR следует считать исследовательской - визуальной и концептуальной помощью для понимания данных - а не формальным методом.

Здесь локально взвешенный гладкий. Обратите внимание, как он может следовать за видимыми «колебаниями» в данных, но не проходит точно через каждую точку. (Можно сделать так, чтобы проходить через точки или следовать меньшим покачиваниям, изменив настройку в процедуре, точно так же, как можно сделать GWR для более или менее точного отслеживания пространственных данных путем изменения настроек в своей процедуре.)

Lowess

Интуитивно, думайте об OLS как о том, что он подгоняет жесткую форму (например, линию) к диаграмме рассеяния пар (x, y), а GWR позволяет этой форме произвольно покачиваться.

Выбор между ними

В данном случае, хотя неясно, что могут означать «две отдельные базы данных», кажется, что использование OLS или GWR для «проверки» отношений между ними может быть неуместным. Например, если базы данных представляют независимые наблюдения одного и того же количества в одном и том же наборе местоположений, то (1) OLS, вероятно, неуместно, поскольку оба x (значения в одной базе данных) и y (значения в другой базе данных) должны быть воспринимается как изменяющийся (вместо того, чтобы думать о х как о фиксированном и точно представленном) и (2) GWR отлично подходит для изучения взаимосвязи между х и у, но его нельзя использовать для проверкивсе: гарантированно найти отношения, не смотря ни на что. Более того, как отмечалось ранее, симметричные роли «двух баз данных» указывают, что одну из них можно выбрать как «x», а другую как «y», что приводит к двум возможным результатам GWR, которые гарантированно будут отличаться.

Вот локально взвешенное сглаживание тех же данных, поменяв ролями x и y. Сравните это с предыдущим сюжетом: обратите внимание, насколько круче общая подгонка и насколько она отличается в деталях.

Слабость 2

Различные методы необходимы для установления того, что две базы данных предоставляют одну и ту же информацию, или для оценки их относительного смещения или относительной точности. Выбор метода зависит от статистических свойств данных и цели валидации. Например, базы данных химических измерений обычно сравниваются с использованием методов калибровки .

Интерпретация I Морана

Трудно сказать, что означает «я Морана для модели GWR». Я предполагаю, что статистика Морана I, возможно, была вычислена для остатков вычисления GWR. (Остатки - это различия между фактическими и подобранными значениями.) I Морана является глобальной мерой пространственной корреляции. Если он небольшой, это говорит о том, что различия между значениями y и подгонками GWR из значений x имеют небольшую пространственную корреляцию или не имеют ее вообще. Когда GWR «настроен» на данные (это включает принятие решения о том, что действительно является «соседом» какой-либо точки), следует ожидать низкой пространственной корреляции в остатках, потому что GWR (неявно) использует любую пространственную корреляцию между x и y значения в его алгоритме.

Whuber
источник
Итак, в GWR вы сказали, что изменение переменных дает разные результаты, но тот, который дает более высокий остаточный квадрат, не означает ли это, что он показывает более сильную связь между этими двумя?
Sam007
Сэм, низкий остаточный квадрат сам по себе не указывает на более сильные отношения. В частности, когда вы меняете роли x и y, вы даже не можете сравнить остаточные квадраты - они часто находятся в разных единицах. (Например, одна может быть квадратной температурой, а другая - квадратным количеством осадков: как определить, какой из них ниже?) Вы всегда можете уменьшить остаточный квадрат, включив в модель больше параметров, даже если они бессмысленны слишком далеко в этом направлении называется «переоснащение». В некотором смысле GWR с коротким пространственным диапазоном является формой переоснащения.
whuber
2
Вы можете думать о R-квадрат, Сэм: это соотношение. (Я понял, что «остаточный квадрат» - это именно то, что он говорит: сумма квадратов невязок. Большинство программного обеспечения статистики сообщает эту статистику вместе со значениями R-квадрата.) Но все же опасно и, как правило, неправильно сравнивать разные модели (например, как у с точки зрения х по сравнению с х с точки зрения у) с точки зрения R-квадрат: см. stats.stackexchange.com/questions/13314 . Поскольку GWR является исследовательским, он отлично подходит для поиска закономерностей и гипотезы отношений, но (как обычно практикуется, во всяком случае) он не подходит для обоснования утверждений.
whuber
1
ВАУ, это была действительно вся статистика. На самом деле причина, по которой я нахожу это трудным, заключается в том, что у меня очень плохой опыт в статистике, поэтому я полагаюсь исключительно на результаты моделей, не понимая, что именно они означают. Большая часть вещей на R2 прошла через мою голову. Не могли бы вы предложить несколько хороших книг для начинающих, чтобы я начал и основал свою статистику?
Sam007
3

Rsquared не следует использовать для сравнения моделей. Используйте значения журнала likihood или AIC.

Если ваши остатки в GWR являются случайными, или я предполагаю, что они случайные (не статистически достоверные), чем у вас может быть указанная модель. По крайней мере, это говорит о том, что у вас нет коррелированных невязок, и о том, что у вас нет пропущенных переменных.

Рич Х.
источник