Модель для оценки плотности населения

14

База данных (население, площадь, форма) может быть использована для отображения плотности населения путем назначения постоянной величины населения / площади для каждой фигуры (которая является многоугольником, таким как блок переписи, участок, округ, штат и т. Д.). Однако популяции обычно не равномерно распределены по своим полигонам. Дасиметрическое отображение - это процесс уточнения этих оценок плотности с помощью вспомогательных данных. Это важная проблема в социальных науках, как показывает этот недавний обзор .

Предположим, что у нас есть вспомогательная карта земного покрова (или любой другой дискретный фактор). В простейшем случае мы можем использовать явно необитаемые районы, такие как водоемы, чтобы определить, где не находится население, и, соответственно, назначить все население на оставшиеся районы. В более общем смысле каждый блок переписи делитсяj на k частей, имеющих площади поверхности xji , i=1,2,,k . Таким образом, наш набор данных дополнен списком кортежей

(yj,xj1,xj2,,xjk)

где - совокупность (предполагаемая измеренная без ошибок) в единицах j и - хотя это не совсем так - мы можем предположить, что каждый x j i также точно измеряется. В этих терминах цель состоит в том, чтобы разделить каждый y jyjjxjiyj на сумму

yj=zj1+zj2++zjk

где каждый и z j i оценивает население в пределах единицы j, проживающей в классе земельного покрова i . Оценки должны быть объективными. Этот раздел уточняет карту плотности населения, присваивая плотность z j i / x j i пересечению полигона j- й переписи и i- го класса земного покрова. zji0zjijizji/xjijthith

Эта проблема отличается от стандартных настроек регрессии существенными способами:

  1. Разбиение каждого должно быть точным. yj
  2. Компоненты каждого раздела должны быть неотрицательными.
  3. Нет (по предположению) ошибки ни в одном из данных: все население имеет значение и все области x j iyjxji являются правильными.

Существует много подходов к решению, таких как метод « интеллектуального дазиметрического картирования », но все те, о которых я читал, имеют специальные элементы и очевидный потенциал для предвзятости. Я ищу ответы, которые предлагают творческие, вычислительные статистические методы. Непосредственное применение касается коллекции ц. - 10 6 Переписные единицы в среднем по 40 человек на человека (хотя значительная часть имеет 0 человек) и около десятка классов земного покрова.105106

Whuber
источник
Проблема с форматированием теперь исправлена. Это была ошибка.
Роб Хиндман
@Rob Спасибо и спасибо всем, кто смотрел на это: я видел ваши комментарии до того, как они были удалены, и благодарен за ваши усилия.
whuber
1
Также этот: P. A Zandbergen и D. A Ignizio, «Сравнение методов дазиметрического картографирования для оценок численности населения небольшой площади», Картография и географическая информатика 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Который, кажется, призывает к смешиванию.
fgregg
1
Эта статья может быть полезна: Hwahwan Kim и Xiaobai Yao, «Пикнофиллактическая интерполяция: повторная интеграция с методом дазиметрического картирования», International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
фрегг
1
Вы знаете, дазиметрическое картографирование в конечном итоге как проблема экологического вывода. Недавняя работа К. Имаи может быть полезна: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg

Ответы:

4

Вы можете проверить работу Митчела Лэнгфорда по дазиметрическому картированию.

Он строит растры, представляющие распределение населения Уэльса, и некоторые из его методологических подходов могут быть полезны здесь.

Обновление: Вы также можете взглянуть на работу Джереми Менниса (особенно эти две статьи).

Радек
источник
2
Спасибо. Эта работа дает указатель на сеть недавних исследований по дазиметрическому картированию.
whuber
2

Интересный вопрос. Вот предварительный удар по приближению к этому со статистической точки зрения. Предположим, что мы придумали способ присвоения численности населения каждой области . Обозначим эти отношения как ниже:xji

zji=f(xji,β)

Ясно, что любая функциональная форма, которую мы навязываем Будет в лучшем случае приближением к реальным отношениям и, следовательно, потребностью включать ошибку в вышеприведенное уравнение. Таким образом, вышесказанное становится:f(.)

zji=f(xji,β)+ϵji

где,

ϵjiN(0,σ2)

Предположение о распределении ошибок по условию ошибки приведено в иллюстративных целях. При необходимости мы можем изменить его по мере необходимости.

yjif(.)

iϵji=0

if(xji,β)=yj

zjizjf(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

where,

e is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to yj and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed yj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2.

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

zji=f(xji,β)+ϵji

where,

ϵjiN(0,σ2)

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(zje=yj)

where,

e is a vector of ones of appropriate dimension.

The constraint on zj ensures an exact decomposition.


источник
2
@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.
whuber