Как я могу смоделировать микроданные переписи для небольших районов, используя 1% выборку микроданных в большом масштабе, и агрегировать статистику в масштабе небольших районов?

9

Я хотел бы выполнить многомерный анализ на индивидуальном уровне на небольших уровнях географической агрегации (районы сбора данных переписи населения Австралии). Очевидно, что перепись недоступна на этих небольших уровнях агрегирования по причинам конфиденциальности, поэтому я изучаю другие альтернативы. Почти все переменные, представляющие интерес, являются категориальными. У меня есть два набора данных в моем распоряжении:

  • 1% выборки переписи доступны с гораздо большим уровнем пространственной агрегации (область с населением ~ 190 000 и обширной пространственной сегрегацией демографических данных).

  • Таблицы частот для переменных, которые меня интересуют на уровне малых площадей (500 маленьких областей, среднее значение pop = 385, sd = 319, median = 355).

Как я могу использовать эти два набора данных для моделирования распределения населения на уровне небольшой территории, максимально приближенного к фактической численности населения небольшой области?

Я ценю, что вполне могут быть рутинные методы для этого; Если так, то указатель на учебник или соответствующие статьи в журнале был бы весьма полезен.

fmark
источник
возможно связано (у меня похожая проблема): stats.stackexchange.com/questions/14399/… Здесь может потребоваться выборка Гиббса.
Мзуба
Вы можете задать свой вопрос в списке рассылки SRMSNET Американской статистической ассоциации. Если вы находитесь в Австралии, я бы подошел к Рэю Чамберсу - думаю, никто не знает SAE лучше его в Южном полушарии :).
StasK
Эта проблема тесно связана с «дасиметрическим картированием».
whuber
1
Я согласен с @whuber, и дасиметрическое картографирование может представлять интерес для fmark, учитывая также материал темы. К сожалению, это в значительной степени отделено от литературы по экологическим выводам, которую я привел в своем ответе (я не хочу больше накапливать литературу!) Как вы думаете, fmark?
Энди W
1
Некоторые методы дазиметрического картирования начали использовать вспомогательные данные, чтобы попытаться интерполировать данные в меньшие области. Цели экологического вывода и дазиметрического картирования несколько отличаются (несколько аналогично разнице между прогнозированием / прогнозированием и выводом). Я напишу еще один пост о тех источниках, которые я собрал, и я думаю, что они также будут интересны. К сожалению, я не могу дать гораздо более полезных советов, чем привести литературу. Это популярная современная тема, и, надеюсь, вы сможете внести свой вклад в это!
Энди W

Ответы:

5

Дазиметрическое картографирование в основном сфокусировано на интерполяции оценок населения в меньшие районы, чем доступно в распространяемых в настоящее время данных (см. Этот вопрос для множества полезных ссылок по теме). Зачастую это делалось путем простого определения районов (на основе характеристик земли), в которых, очевидно, нет населения, а затем переоценки плотности населения (без учета этих районов). Примером может быть, если в городе есть водоем, другим может быть, если вы идентифицируете участки промышленной земли, в которых не может быть жилого населения. Более поздние подходы к дасиметрическому картированию включают другие вспомогательные данные в вероятностную структуру для распределения оценок населения (Kyriakidis, 2004; Liu и др., 2008; Lin и др., 2011; Zhang & Qiu, 2011).

Теперь легко увидеть отношение к вашему вопросу под рукой. Вам нужны оценки населения небольших территорий. Но также должно быть ясно, как это может не соответствовать вашим целям. Вам нужны не только данные о населении, но и характеристики этих групп населения. Одним из терминов, используемых для описания этой ситуации, является проблема смены поддержки (Cressie, 1996; Gotway & Young, 2002). Заимствуя данные из геостатистической литературы, в которой кто-то пытается делать прогнозы определенной характеристики на обширной территории из точечных выборок, в недавней работе была предпринята попытка интерполировать ареальные данные в различные целевые зоны. Большая часть работы Пьера Гувартса сосредоточена на таких методах кригинга от точки к точке, недавняя статья в журнале Geographic Analysis есть несколько примеров применения метода различных материалов (Haining et al., 2010), и одно из моих любимых применений - в этой статье (Young et al., 2009).

То, что я цитирую, вряд ли следует рассматривать как панацею от этой проблемы. В конечном счете, многие из тех же проблем с экологическим выводом и смещением агрегации применимы и к целям ареальной интерполяции. Вероятно, многие из взаимосвязей между данными микроуровня просто теряются в процессе агрегирования, и такие методы интерполяции не смогут их восстановить. Кроме того, процесс, посредством которого данные эмпирически интерполируются (посредством оценки вариограмм на основе данных совокупного уровня), часто довольно полон специальных шагов, которые должны сделать процесс сомнительным (Goovaerts, 2008).

К сожалению, я публикую это в отдельном ответе, поскольку литература по экологическому выводу и литература по дазиметрическому картографированию и кригингу от точки к точке не перекрываются. Хотя литература по экологическому выводу имеет много последствий для этих методов. Мало того, что методы интерполяции подвержены смещению агрегации, но интеллектуальные дазиметрические методы (которые используют агрегированные данные для подгонки моделей для прогнозирования меньших областей), вероятно, с подозрением на смещение агрегации. Знание ситуаций, в которых происходит смещение агрегации, должно быть поучительным для ситуаций, в которых ареальная интерполяция и дазиметрическое картирование в значительной степени потерпят неудачу (особенно в отношении выявления корреляций между различными переменными на дезагрегированном уровне).


Цитирование

Энди У
источник
Спасибо за полезную отправную точку в современной литературе - я не знал о дазиметрических методах, которые делали больше, чем просто перенасыщение плотности населения, поэтому я буду смотреть на это с нетерпением
fmark
5

Интерес представляет работа Гэри Кинга, в частности его книга «Решение проблемы экологического вывода» (первые две главы доступны здесь ), а также сопровождающее программное обеспечение, которое он использует для экологического вывода. Кинг показывает в своей книге, как можно улучшить оценки регрессионных моделей, использующих агрегированные данные, путем изучения потенциальных границ групп нижнего уровня, основанных на доступных агрегированных данных. Тот факт, что ваши данные в основном категориальные, делает их пригодными для этой техники. (Хотя не дайте себя одурачить, это не такое универсальное решение, как вы могли бы надеяться, учитывая название!). Существует более актуальная работа, но книга Кинга - ИМО, лучшее место для начала.

Другой возможностью было бы просто представить потенциальные границы самих данных (в картах или графиках). Так, например, у вас может быть отчет о распределении по полу на совокупном уровне (скажем, 5000 мужчин и 5000 женщин), и вы знаете, что этот совокупный уровень включает в себя 2 разные небольшие группы населения с населением 9000 и 1000 человек. Затем вы можете представить это в виде таблицы непредвиденных обстоятельств в форме;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Хотя у вас нет информации в ячейках для агрегатов нижнего уровня, из предельных итогов мы можем построить минимальные или максимальные потенциальные значения для каждой ячейки. Таким образом, в этом примере Men X Unit1ячейка может принимать значения только от 4000 до 5000 (в любое время предельные распределения будут более неравномерными, чем меньше интервал возможных значений, которые будут принимать ячейки). Очевидно, что получить границы таблицы сложнее, чем я ожидал ( Dobra & Fienberg, 2000 ), но, похоже, функция доступна в eiPackбиблиотеке в R ( Lau et al., 2007, p. 43 ).

Многофакторный анализ с данными на уровне агрегирования затруднен, так как с этим типом данных неизбежно происходит смещение агрегации. (В двух словах, я бы просто описал смещение агрегации, поскольку многие разные процессы генерирования данных на индивидуальном уровне могут привести к ассоциациям на агрегированном уровне). Ряд статей в Американском социологическом обзоре.в 1970-х некоторые из моих любимых ссылок по темам (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), хотя каноническими источниками по этой теме могут быть (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) , Я действительно думаю, что представление потенциальных границ, которые могут принять данные, может быть подстрекательским, хотя вы действительно ограничены ограничениями совокупных данных для проведения многомерного анализа. Это никому не мешает делать это, хотя и в социальных науках (к лучшему или к худшему!)

Обратите внимание, (как сказал Чарли в комментариях), что «решение» Кинга получило немало критических замечаний (Anselin & Cho, 2002; Freedman et al., 1998). Хотя эти критические замечания не говорят о математике метода Кинга, тем более в отношении того, в каких ситуациях метод Кинга по-прежнему не учитывает систематическую погрешность (и я согласен с Фридманом и Анселином в тех ситуациях, когда данные для общественные науки все еще подозрительны, они встречаются гораздо чаще, чем те, которые соответствуют предположениям Кинга). Отчасти это причина, по которой я предлагаю просто изучить границы (в этом нет ничего плохого), но сделать выводы о корреляциях на индивидуальном уровне из таких данных требует гораздо больше скачков веры, которые в конечном итоге неоправданны в большинстве ситуаций.


Цитирование

Энди У
источник
Обратите внимание, что другие критиковали подход Кинга к проблеме экологической ошибки; Дэвид Фридман является ярким примером. Вот ответ, который Фридман и его соавторы дают на приведенную выше книгу Кинга: citeseerx.ist.psu.edu/viewdoc/… Конечно, у Кинга есть ответ, а Фридман и др. иметь ответ на ответ на ответ ... Я не могу понять, что вы пытаетесь сделать, и какие данные у вас есть, но я, как правило, очень скептически отношусь к анализу типа экологических выводов.
Чарли
Да, @Charlie, я согласен (и мне особенно нравится взгляд Фридмана на проблему в целом). Это отчасти причина, по которой я указываю на общую литературу о предвзятости к агрегации в конце моего поста. Я не совсем уверен, что вы подразумеваете под утверждением «Я не могу понять, что вы пытаетесь сделать и какие у вас есть данные, но я, как правило, очень скептически отношусь к анализу типа экологических выводов», это в Привет королю и Фридману, которые жалуются на то, что не делятся данными?
Энди W
@ Энди, этот метод такой же, как и то, что экономисты знают как частично идентифицированные распределения ( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK
@ Энди, нет, простите за двусмысленность. Я на самом деле говорил с ОП. Если у него есть таблицы частот на небольшой территории и он хочет получить статистику на уровне небольшой области, чего не хватает? Я предполагаю, что он должен иметь только поля, но не содержимое ячейки, как вы предлагаете в своем посте.
Чарли
@StasK, я не знаю. Я проверю, сделает ли Кинг какие-либо ссылки на Мански позже на этой неделе, когда у меня будет доступ к книге. Вероятно, в обзоре упоминается некоторое совпадение с учетом экологических соображений. Другим потенциальным (бесплатным) источником для изучения связи между ними может быть читатель Кинг, отредактированный на «Новые методы в экологическом заключении» (полностью опубликованный на его веб-сайте)
Энди У.
2

Я не уверен, что в литературе для этого существует четко определенный ответ, учитывая, что поиск в Google дает в основном три полезных ссылки на многомерную оценку малой площади. Пфефферманн (2002) обсуждает дискретные переменные ответа в разделе 4 статьи, но это будут одномерные модели. Конечно, с помощью иерархических байесовских методов ( Рао 2003, гл. 10 ) вы можете совершать любые чудеса, но если в итоге вы обнаружите, что просто копируете свои приоры (потому что у вас так мало данных), это было бы ужасно результат вашего симуляционного упражнения. Кроме того, Рао рассматривает только непрерывные переменные.

Я предполагаю, что самой большой проблемой будет разложение ковариационной матрицы на компоненты между и внутри малых областей. При выборке 1% у вас будет только 3 наблюдения от вашего SAE, поэтому может быть трудно получить стабильную оценку внутри компонента.

Если бы я был на вашем месте, я бы попробовал многовариантное расширение модели Пфеффермана с многомерным случайным эффектом малой площади. Вы действительно можете получить иерархическую байесовскую модель для этого, если ничего не работает на основе дизайна.

ОБНОВЛЕНИЕ (чтобы ответить на комментарий Энди к этому ответу): методы начальной загрузки для оценки небольшой площади ( Lahiri 2003 ) специально воссоздают правдоподобную популяцию из исследования. В то время как основное внимание в процессе начальной загрузки уделяется оценке отклонений оценок малых площадей, процедуры должны представлять интерес и иметь отношение к опубликованной проблеме.

Stask
источник
Я бы не стал оценивать статус литературы на основе поиска в Google. Я не совсем уверен, что в этом случае автор будет искать оценку небольшой площади. Насколько я понимаю, эта литература ориентирована либо на прогнозирование характеристик на небольших территориях ( Kriegler & Berk, 2010 ), либо на оценку параметров в многоуровневых моделях на основе разреженного числа выборок на единицу совокупности.
Энди W
Я не уверен, что оценка маленькой области - то, что я хочу сделать. Насколько я понимаю, оценка небольшой площади стремится перейти от нескольких выборок в небольшой области к агрегированной сводной статистике. Я стремлюсь к обратному (перейти от статистического распределения населения большой площади и совокупной статистики небольшой площади к моделируемой небольшой территории населения). Lahiri 2003 выглядит здесь как хорошая отправная точка.
Fmark