Оценка параметров для пространственного процесса

12

Мне дали сетку положительных целочисленных значений. Эти числа представляют интенсивность, которая должна соответствовать силе убеждения человека, занимающего это место в сетке (более высокое значение указывает на более высокое убеждение). Человек, как правило, будет влиять на несколько ячеек сетки.n×n

Я считаю, что схема интенсивностей должна «выглядеть гауссовской» в том смысле, что будет центральное местоположение высокой интенсивности, а затем интенсивности сужаются радиально во всех направлениях. В частности, я хотел бы смоделировать значения как «масштабированный гауссовский» с параметром для дисперсии и другим для масштабного коэффициента.

Есть два осложняющих фактора:

  • отсутствие человека не будет соответствовать нулевому значению из-за фонового шума и других эффектов, но значения должны быть меньше. Они могут быть ошибочными, и в первом приближении может быть трудно смоделировать как простой гауссов шум.
  • Диапазон интенсивности может варьироваться. Для одного экземпляра значения могут находиться в диапазоне от 1 до 10, а в другом - от 1 до 100.

Я ищу подходящую стратегию оценки параметров или указатели на соответствующую литературу. Указатели на то, почему я подхожу к этой проблеме в целом, также будут оценены :). Я читал о кригинге и гауссовских процессах, но это кажется очень тяжелым механизмом для моей проблемы.

Суреш Венкатасубраманян
источник
1
Что вы подразумеваете под гауссианом с параметром дисперсии и масштаба? Параметр дисперсии является масштабным параметром гауссиана! Я также немного не уверен насчет модели, которую вы создали. Можете ли вы описать проблему, которую вы пытаетесь решить, более подробно? Использование гауссовской модели для целочисленных наблюдений с малой гранулярностью кажется подозрительным.
кардинал
(+1) За интересный вопрос. С нетерпением ждем понимания того, что вы пытаетесь решить немного лучше.
кардинал
Вот несколько наблюдений: 1. Если ваши значения целочисленные, использование Гаусса не представляется целесообразным. 2. Непонятно, какова цель вашей модели, хотите ли вы, например, определить группы сильных убеждений? Какой будет интерпретация ваших параметров, если они у вас есть? 3. Поскольку у вас есть сетка, почему бы не попытаться подобрать смесь двумерных распределений? Тогда сетка будет поддерживать распределение (скажем, единичный квадрат), а интенсивности будут соответствовать областям высокой вероятности.
mpiktas
Спасибо всем за интересные моменты. Позвольте мне попытаться уточнить. Выбор «гауссов», в свете комментариев, может быть красной селедкой, которая вызывает больше путаницы, чем помогает. Ключевой особенностью данных являются высокие значения интенсивности в точке наибольшей веры в местонахождение человека и сужение «радиально» вокруг него (что я наблюдал эмпирически). Значения интенсивности приходят из решения (линейной) обратной задачи, и поэтому на самом деле не обязательно должны быть интегральными - это просто те данные, которые у нас есть.
Суреш Венкатасубраманян
Кстати, я ценю попытки сделать вопрос более четко определенным и лучше смоделированным. Я сделаю все возможное, чтобы объяснить фактические параметры данных, чтобы они сошлись в правильных предположениях моделирования.
Суреш Венкатасубраманян

Ответы:

5

Вы можете использовать этот модуль в pysal библиотеки питона для методов пространственного анализа данных , я обсуждаю ниже.

Ваше описание того, как на отношение каждого человека влияют отношения окружающих его людей, может быть представлено пространственной авторегрессионной моделью (SAR) (см. Также мое простое объяснение SAR из этого ответа SE 2 ). Самый простой подход состоит в том, чтобы игнорировать другие факторы и оценить силу влияния того, как окружающие люди влияют на отношение друг друга, используя статистику Морана I.

Если вы хотите оценить важность других факторов при оценке силы влияния окружающих людей, это более сложная задача, тогда вы можете оценить параметры регрессии: . См. Документы здесь . (Методы оценки этого типа регрессии происходят из области пространственной эконометрики и могут стать намного более сложными, чем ссылка, которую я дал.)y=bx+rhoWy+e

Ваша задача будет построить матрицу пространственных весов ( ). Я думаю, что каждый элемент w i j матрицы должен быть 1 или 0 в зависимости от того, находится ли человек i на некотором расстоянии, вы чувствуете, что он должен влиять на другого человека j .WwiJяJ

Чтобы получить интуитивное представление о проблеме, ниже я проиллюстрирую, как процесс генерирования пространственных авторегрессионных данных (DGP) будет формировать структуру значений. Для 2 решеток имитируемых значений белые блоки представляют высокие значения, а темные блоки представляют низкие значения.

В первой решетке ниже значений сетки были сгенерированы нормально распределенным случайным процессом (или гауссовым), где равно нулю.рчасо

Случайный (гауссовский)

рчасовведите описание изображения здесь

b_dev
источник
Это очень интересно (как и Geary C). Это может быть близко к тому, что мне нужно.
Суреш Венкатасубраманян
Geary C помогает увидеть, как значения близки друг к другу кластера, даже значения в середине распределения. Моран I помогает вам увидеть, как кластеры с очень высокими значениями с очень высокими значениями и с очень низкими значениями группируются вокруг очень низких значений. Так что, возможно, вы правы, и самый простой и лучший метод - это Geary's C. Помните, что подход Geary's C является исследовательским и не позволит вам обусловить свои результаты другими факторами. Посмотрите на этот модуль python для кода для запуска Geary's C: pysal.org/1.1/library/esda/geary.html .
b_dev
Позвольте мне поиграть с этим еще немного. Если кажется, что он делает то, что мне нужно (и я думаю, что так и будет), это звучит как лучший ответ.
Суреш Венкатасубраманян
3

Вот простая идея, которая может работать. Как я уже говорил в комментариях, если у вас есть сетка с интенсивностями, почему бы не соответствовать плотности двумерного распределения?

Вот пример графика, чтобы проиллюстрировать мою точку зрения: введите описание изображения здесь

Каждая точка сетки с отображается в виде квадрата, окрашенного в соответствии с интенсивностью. На график накладывается контурный график двумерного графика нормальной плотности. Как вы можете видеть, контурные линии расширяются в направлении уменьшения интенсивности. Центр будет управляться средним двухвариантной нормали и разбросом интенсивности в соответствии с ковариационной матрицей.

Чтобы получить оценки среднего значения и ковариационной матрицы, можно использовать простую числовую оптимизацию, сравнить интенсивности со значениями функции плотности, используя среднее значение и ковариационную матрицу в качестве параметров. Минимизируйте, чтобы получить оценки.

Конечно, это, строго говоря, не статистическая оценка, но, по крайней мере, это даст вам представление о том, как действовать дальше.

Вот код для воспроизведения графика:

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")
mpiktas
источник
2

Икс[я,J]Икс[я,J](Икс[я1,J1],,,,,Икс[ям,Jм])(Икс[я1+К,J1+L],,,,Икс[ям+К,Jм+L])сорр(Икс[я1,J1],Икс[я2,J2])d([я1,J1],[я2,J2])ρ(d)ρ(d)знак равноКd-1К

d([я1,J1],[я2,J2])знак равно|я1-я2|+|J1-J2|ρ(d)например, по максимальной вероятности. Для большего количества идей ищите «случайное поле».

charles.y.zheng
источник
1
«Желание предположить пространственную стационарность» прямо противоречит предположению ФП, что «интенсивности сужаются радиально во всех направлениях».
whuber
Как же так? Такая картина будет иметь место с предложенной мною автокорреляционной структурой.
charles.y.zheng
1
@charles Это важный момент: если действительно эту явную тенденцию следует отнести к автокорреляции, то в принципе может показаться, что другая независимая реализация процесса имеет совершенно другую тенденцию, например, увеличение стоимости по сравнению с центральной точкой. Поскольку ОП четко сформулировал и выделил некоторые детерминированные элементы для тренда («радиальное сужение») и корреляционные элементы («имеют влияние на несколько ячеек сетки»), ответ, который учитывает это, скорее всего, будет рассматриваться более позитивно, чем тот, который утверждает ОП "захочет" передумать.
whuber
Я не уверен, что понимаю условие пространственной стационарности. На первый взгляд кажется, что это противоречит идее «пика, который сужается» в определенном месте, но я явно чего-то не понимаю.
Суреш Венкатасубраманян
1
@charles, шаблон, который вы описываете, будет присутствовать для каждой из точек сетки из-за предположения о пространственной стационарности. Стационарность в основном говорит о том, что все мои очки ведут себя одинаково. Это не тот случай, описанный ОП. Ответ все еще очень хорош, но не уместен в этом случае.
mpiktas