База данных (население, площадь, форма) может быть использована для отображения плотности населения путем назначения постоянной величины населения / площади для каждой фигуры (которая является многоугольником, таким как блок переписи, участок, округ, штат и т. Д.). Однако популяции обычно не равномерно распределены по своим полигонам. Дасиметрическое отображение - это процесс уточнения этих оценок плотности с помощью вспомогательных данных. Это важная проблема в социальных науках, как показывает этот недавний обзор .
Предположим, что у нас есть вспомогательная карта земного покрова (или любой другой дискретный фактор). В простейшем случае мы можем использовать явно необитаемые районы, такие как водоемы, чтобы определить, где не находится население, и, соответственно, назначить все население на оставшиеся районы. В более общем смысле каждый блок переписи делится на частей, имеющих площади поверхности , . Таким образом, наш набор данных дополнен списком кортежей
где - совокупность (предполагаемая измеренная без ошибок) в единицах j и - хотя это не совсем так - мы можем предположить, что каждый x j i также точно измеряется. В этих терминах цель состоит в том, чтобы разделить каждый y j на сумму
где каждый и z j i оценивает население в пределах единицы j, проживающей в классе земельного покрова i . Оценки должны быть объективными. Этот раздел уточняет карту плотности населения, присваивая плотность z j i / x j i пересечению полигона j- й переписи и i- го класса земного покрова.
Эта проблема отличается от стандартных настроек регрессии существенными способами:
- Разбиение каждого должно быть точным.
- Компоненты каждого раздела должны быть неотрицательными.
- Нет (по предположению) ошибки ни в одном из данных: все население имеет значение и все области x j i являются правильными.
Существует много подходов к решению, таких как метод « интеллектуального дазиметрического картирования », но все те, о которых я читал, имеют специальные элементы и очевидный потенциал для предвзятости. Я ищу ответы, которые предлагают творческие, вычислительные статистические методы. Непосредственное применение касается коллекции ц. - 10 6 Переписные единицы в среднем по 40 человек на человека (хотя значительная часть имеет 0 человек) и около десятка классов земного покрова.
Ответы:
Вы можете проверить работу Митчела Лэнгфорда по дазиметрическому картированию.
Он строит растры, представляющие распределение населения Уэльса, и некоторые из его методологических подходов могут быть полезны здесь.
Обновление: Вы также можете взглянуть на работу Джереми Менниса (особенно эти две статьи).
источник
Интересный вопрос. Вот предварительный удар по приближению к этому со статистической точки зрения. Предположим, что мы придумали способ присвоения численности населения каждой области . Обозначим эти отношения как ниже:xji
Ясно, что любая функциональная форма, которую мы навязываем Будет в лучшем случае приближением к реальным отношениям и, следовательно, потребностью включать ошибку в вышеприведенное уравнение. Таким образом, вышесказанное становится:f(.)
где,
Предположение о распределении ошибок по условию ошибки приведено в иллюстративных целях. При необходимости мы можем изменить его по мере необходимости.
where,
The first indicator constraint captures the idea that the sum of the deterministic terms should sum toyj and the second one captures the idea that the error residuals should sum to 0.
Model selection is trickier as we are decomposing the observedyj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2 .
Edit 1
Thinking some more the above formulation can be simplified as it has more constraints than needed.
where,
Denote the stacked vector ofzji by zj and the stacked deterministic terms of f(xji,β) by fj . Thus, we have:
where,
The constraint onzj ensures an exact decomposition.
источник