Я хотел бы выполнить многомерный анализ на индивидуальном уровне на небольших уровнях географической агрегации (районы сбора данных переписи населения Австралии). Очевидно, что перепись недоступна на этих небольших уровнях агрегирования по причинам конфиденциальности, поэтому я изучаю другие альтернативы. Почти все переменные, представляющие интерес, являются категориальными. У меня есть два набора данных в моем распоряжении:
1% выборки переписи доступны с гораздо большим уровнем пространственной агрегации (область с населением ~ 190 000 и обширной пространственной сегрегацией демографических данных).
Таблицы частот для переменных, которые меня интересуют на уровне малых площадей (500 маленьких областей, среднее значение pop = 385, sd = 319, median = 355).
Как я могу использовать эти два набора данных для моделирования распределения населения на уровне небольшой территории, максимально приближенного к фактической численности населения небольшой области?
Я ценю, что вполне могут быть рутинные методы для этого; Если так, то указатель на учебник или соответствующие статьи в журнале был бы весьма полезен.
Ответы:
Дазиметрическое картографирование в основном сфокусировано на интерполяции оценок населения в меньшие районы, чем доступно в распространяемых в настоящее время данных (см. Этот вопрос для множества полезных ссылок по теме). Зачастую это делалось путем простого определения районов (на основе характеристик земли), в которых, очевидно, нет населения, а затем переоценки плотности населения (без учета этих районов). Примером может быть, если в городе есть водоем, другим может быть, если вы идентифицируете участки промышленной земли, в которых не может быть жилого населения. Более поздние подходы к дасиметрическому картированию включают другие вспомогательные данные в вероятностную структуру для распределения оценок населения (Kyriakidis, 2004; Liu и др., 2008; Lin и др., 2011; Zhang & Qiu, 2011).
Теперь легко увидеть отношение к вашему вопросу под рукой. Вам нужны оценки населения небольших территорий. Но также должно быть ясно, как это может не соответствовать вашим целям. Вам нужны не только данные о населении, но и характеристики этих групп населения. Одним из терминов, используемых для описания этой ситуации, является проблема смены поддержки (Cressie, 1996; Gotway & Young, 2002). Заимствуя данные из геостатистической литературы, в которой кто-то пытается делать прогнозы определенной характеристики на обширной территории из точечных выборок, в недавней работе была предпринята попытка интерполировать ареальные данные в различные целевые зоны. Большая часть работы Пьера Гувартса сосредоточена на таких методах кригинга от точки к точке, недавняя статья в журнале Geographic Analysis есть несколько примеров применения метода различных материалов (Haining et al., 2010), и одно из моих любимых применений - в этой статье (Young et al., 2009).
То, что я цитирую, вряд ли следует рассматривать как панацею от этой проблемы. В конечном счете, многие из тех же проблем с экологическим выводом и смещением агрегации применимы и к целям ареальной интерполяции. Вероятно, многие из взаимосвязей между данными микроуровня просто теряются в процессе агрегирования, и такие методы интерполяции не смогут их восстановить. Кроме того, процесс, посредством которого данные эмпирически интерполируются (посредством оценки вариограмм на основе данных совокупного уровня), часто довольно полон специальных шагов, которые должны сделать процесс сомнительным (Goovaerts, 2008).
К сожалению, я публикую это в отдельном ответе, поскольку литература по экологическому выводу и литература по дазиметрическому картографированию и кригингу от точки к точке не перекрываются. Хотя литература по экологическому выводу имеет много последствий для этих методов. Мало того, что методы интерполяции подвержены смещению агрегации, но интеллектуальные дазиметрические методы (которые используют агрегированные данные для подгонки моделей для прогнозирования меньших областей), вероятно, с подозрением на смещение агрегации. Знание ситуаций, в которых происходит смещение агрегации, должно быть поучительным для ситуаций, в которых ареальная интерполяция и дазиметрическое картирование в значительной степени потерпят неудачу (особенно в отношении выявления корреляций между различными переменными на дезагрегированном уровне).
Цитирование
источник
Интерес представляет работа Гэри Кинга, в частности его книга «Решение проблемы экологического вывода» (первые две главы доступны здесь ), а также сопровождающее программное обеспечение, которое он использует для экологического вывода. Кинг показывает в своей книге, как можно улучшить оценки регрессионных моделей, использующих агрегированные данные, путем изучения потенциальных границ групп нижнего уровня, основанных на доступных агрегированных данных. Тот факт, что ваши данные в основном категориальные, делает их пригодными для этой техники. (Хотя не дайте себя одурачить, это не такое универсальное решение, как вы могли бы надеяться, учитывая название!). Существует более актуальная работа, но книга Кинга - ИМО, лучшее место для начала.
Другой возможностью было бы просто представить потенциальные границы самих данных (в картах или графиках). Так, например, у вас может быть отчет о распределении по полу на совокупном уровне (скажем, 5000 мужчин и 5000 женщин), и вы знаете, что этот совокупный уровень включает в себя 2 разные небольшие группы населения с населением 9000 и 1000 человек. Затем вы можете представить это в виде таблицы непредвиденных обстоятельств в форме;
Хотя у вас нет информации в ячейках для агрегатов нижнего уровня, из предельных итогов мы можем построить минимальные или максимальные потенциальные значения для каждой ячейки. Таким образом, в этом примере
Men X Unit1
ячейка может принимать значения только от 4000 до 5000 (в любое время предельные распределения будут более неравномерными, чем меньше интервал возможных значений, которые будут принимать ячейки). Очевидно, что получить границы таблицы сложнее, чем я ожидал ( Dobra & Fienberg, 2000 ), но, похоже, функция доступна вeiPack
библиотеке в R ( Lau et al., 2007, p. 43 ).Многофакторный анализ с данными на уровне агрегирования затруднен, так как с этим типом данных неизбежно происходит смещение агрегации. (В двух словах, я бы просто описал смещение агрегации, поскольку многие разные процессы генерирования данных на индивидуальном уровне могут привести к ассоциациям на агрегированном уровне). Ряд статей в Американском социологическом обзоре.в 1970-х некоторые из моих любимых ссылок по темам (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), хотя каноническими источниками по этой теме могут быть (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) , Я действительно думаю, что представление потенциальных границ, которые могут принять данные, может быть подстрекательским, хотя вы действительно ограничены ограничениями совокупных данных для проведения многомерного анализа. Это никому не мешает делать это, хотя и в социальных науках (к лучшему или к худшему!)
Обратите внимание, (как сказал Чарли в комментариях), что «решение» Кинга получило немало критических замечаний (Anselin & Cho, 2002; Freedman et al., 1998). Хотя эти критические замечания не говорят о математике метода Кинга, тем более в отношении того, в каких ситуациях метод Кинга по-прежнему не учитывает систематическую погрешность (и я согласен с Фридманом и Анселином в тех ситуациях, когда данные для общественные науки все еще подозрительны, они встречаются гораздо чаще, чем те, которые соответствуют предположениям Кинга). Отчасти это причина, по которой я предлагаю просто изучить границы (в этом нет ничего плохого), но сделать выводы о корреляциях на индивидуальном уровне из таких данных требует гораздо больше скачков веры, которые в конечном итоге неоправданны в большинстве ситуаций.
Цитирование
источник
Я не уверен, что в литературе для этого существует четко определенный ответ, учитывая, что поиск в Google дает в основном три полезных ссылки на многомерную оценку малой площади. Пфефферманн (2002) обсуждает дискретные переменные ответа в разделе 4 статьи, но это будут одномерные модели. Конечно, с помощью иерархических байесовских методов ( Рао 2003, гл. 10 ) вы можете совершать любые чудеса, но если в итоге вы обнаружите, что просто копируете свои приоры (потому что у вас так мало данных), это было бы ужасно результат вашего симуляционного упражнения. Кроме того, Рао рассматривает только непрерывные переменные.
Я предполагаю, что самой большой проблемой будет разложение ковариационной матрицы на компоненты между и внутри малых областей. При выборке 1% у вас будет только 3 наблюдения от вашего SAE, поэтому может быть трудно получить стабильную оценку внутри компонента.
Если бы я был на вашем месте, я бы попробовал многовариантное расширение модели Пфеффермана с многомерным случайным эффектом малой площади. Вы действительно можете получить иерархическую байесовскую модель для этого, если ничего не работает на основе дизайна.
ОБНОВЛЕНИЕ (чтобы ответить на комментарий Энди к этому ответу): методы начальной загрузки для оценки небольшой площади ( Lahiri 2003 ) специально воссоздают правдоподобную популяцию из исследования. В то время как основное внимание в процессе начальной загрузки уделяется оценке отклонений оценок малых площадей, процедуры должны представлять интерес и иметь отношение к опубликованной проблеме.
источник