Как повторное взвешивание данных о разнообразии Американского Сообщества повлияет на погрешность?

10

Справочная информация. В настоящее время моя организация сравнивает свои статистические данные о разнообразии рабочей силы (например,% инвалидов,% женщин,% ветеранов) с общей доступностью рабочей силы для этих групп на основе обследования американского сообщества (проект обследования Бюро переписи населения США). Это неточный ориентир, потому что у нас очень специфический набор рабочих мест, которые отличаются по демографии от рабочей силы в целом. Скажем, например, что в моей организации в основном инженеры. Инженерия - это только около 20% женщин в моем штате. Если мы сравним себя с общим показателем рабочей силы, который больше похож на 50% женщин, это приведет к панике, что «у нас только 20% женщин, это катастрофа!» в действительности, 20% - это то, что мы должны ожидать, потому что так выглядит рабочая среда.

Моя цель: то, что я хотел бы сделать, - это взять данные о профессии Американского общественного опроса (по категориям разнообразия) и перевесить их, основываясь на структуре рабочих мест в моем бизнесе. Вот примерный набор данных для работников социальных и общественных служб . Я хочу добавить эти коды работы, перечисленные вместе (поскольку наш пешеходный переход относится к группам работы, а не к конкретным кодам работы), затем я хочу взвесить этот эталон на основе количества людей, которые у нас есть в этой категории (например, наши 3000 социальных и Работники службы сообщества), затем я хочу сделать то же самое для всех остальных рабочих групп, сложить эти цифры вместе и разделить на общее число работников. Это дало бы мне новую пересмотренную меру разнообразия (например, от 6% инвалидов до 2% инвалидов).

Мои вопросы: Как я могу подогнать пределы погрешности к этому окончательному свернутому тесту? У меня нет необработанного набора данных переписи (очевидно), но вы можете просмотреть поля ошибок для каждого числа в предоставленной мной ссылке, переключив поле «Оценка» на «Поле ошибки» в верхней части таблицы. Другие мои коллеги, работающие с этими данными, намерены полностью игнорировать границы ошибок, но я обеспокоен тем, что мы создаем статистически бессмысленный эталон для себя. Можно ли использовать эти данные даже после манипуляций, описанных выше?

DanicaE
источник
3
Не переоценивайте ACS - это тонкий, очень сложный продукт, и при всем моем уважении я не думаю, что вы такой же хороший статистик, как Коллективное бюро переписей. Если вы можете получить определения работы, соответствующие вашей задаче, в ACS или CPS для общенациональных сравнений, тогда сравнение яблок с яблоками будет состоять в том, чтобы вычислить ожидаемое количество категорий «разнообразия» на основе ACS, чтобы ваш бизнес действовал как разумное разнообразие цели.
StasK
2
Стас, я согласен с тобой, но, как я укажу ниже, на самом деле это не повторная проверка ACS.
Стив Самуэльс
В статистике опроса «повторное взвешивание» будет означать преобразование исходных весов опроса. Примером этого может быть пост-стратификация, выборка с разбивкой или калибровка, чтобы определенные предельные распределения для перевесных выборочных соответствий соответствовали известным извне, скажем, из переписи или ACS. Процедура, о которой упоминает Даника, не влияет на вес ACS.
Стив Самуэльс
Что может помочь, это записать конечное количество населения, которое вы хотите знать. Также у ACS есть повторные веса? Это может помочь с оценкой отклонений.
вероятностная

Ответы:

8

Обновление 2014-01-15

Я понимаю, что не ответил на первоначальный вопрос Даники о том, будет ли предел погрешности для косвенно откорректированной пропорции больше или меньше предела погрешности для той же частоты в ACS. Ответ таков: если пропорции категорий компаний существенно не отличаются от пропорций ACS в штатах, приведенная ниже допустимая погрешность будет меньше допустимой погрешности ACS. Причина: косвенный показатель относится к количеству лиц (или относительным пропорциям) в категории рабочих мест в организации как к фиксированным числам. Оценка ACS доли отключенных требует, по сути, оценки этих пропорций, и пределы погрешности увеличатся, чтобы отразить это.

Чтобы проиллюстрировать это, запишите коэффициент отключения как:

P^adj=ninpi^

где р я это оценочные инвалиды скорости в категории я в ACS.p^ii

С другой стороны, расчетная скорость ACS в действительности:

P^acs=(NiN)^pi^

где и N - соответственно категория населения и общие итоги, а N i / N - доля населения в категории i .NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SЕ(п^adJ)знак равно0,0678SЕ(п^aсs)N1/Nзнак равно0,001N2/Nзнак равно0,999SЕ(п^adJ)знак равно0,079

Обновление 2014-01-14

Короткий ответ

На мой взгляд, было бы безответственно представлять такую ​​статистику без CI или погрешности (половина длины CI). Чтобы их вычислить, вам необходимо загрузить и проанализировать образец микроданных общего пользования ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Длинный ответ

Это на самом деле не повторное взвешивание ACS. Это версия косвенной стандартизации, стандартная процедура в эпидемиологии (Google или см. Любой текст эпи). В этом случае уровни инвалидности по заданию (категории) штата ACS взвешиваются по количеству сотрудников в категории должностей организации. Это позволит рассчитать ожидаемое количество инвалидов в организации E, которое можно сравнить с наблюдаемым числом O. Обычный показатель для сравнения - стандартизированный коэффициент R= (O/E). (Обычный термин «SMR», для «стандартизированного коэффициента смертности», но здесь «результат» - инвалидность.). Rэто также отношение наблюдаемого уровня инвалидности (O/n)и косвенно стандартизированного уровня (E/n), где nчисло сотрудников организации.

В этом случае кажется, что для Eили E/nпонадобится только CI , поэтому я начну с этого:

Если

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

затем

 E = sum (n_i p_i)

Дисперсия Eэто:

 var(E) = nn' V nn

где nn- вектор-столбец количества категорий организаций и Vоценочная матрица дисперсии-ковариации показателей инвалидности категории ACS.

Также, тривиально, se(E) = sqrt(var(E))и se(E/n) = se(E)/n.

и 90% CI для E

  E ± 1.645 SE(E)

Разделите, nчтобы получить CI для E/n.

Для оценки var(E)вам необходимо загрузить и проанализировать данные образца микроданных общего пользования ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Я могу говорить только о процессе вычислений var(E)в Stata. Поскольку я не знаю, доступно ли это вам, я отложу детали. Однако кто-то, знающий о возможностях обследования R или (возможно) SAS, также может предоставить код из приведенных выше уравнений.

Доверительный интервал для соотношения R

Доверительные интервалы для Rобычно основаны на предположении Пуассона для O, но это предположение может быть неверным.

Мы можем считать Oи Eбыть независимыми, поэтому

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))может быть вычислен как еще один шаг Stata после вычисления var(E).

При условии независимости Пуассона:

 var(log O) ~ 1/E(O).

Программа, подобная Stata, может соответствовать, скажем, отрицательной биномиальной модели или обобщенной линейной модели и дать вам более точный дисперсионный термин.

Приблизительная 90% ДИ для log RIS

 log R ± 1.645 sqrt(var(log R))

и конечные точки могут быть возведены в степень для получения CI R.

Стив Самуэльс
источник
журнал(р)р
Мне показалось, что это не тот случай, когда размазывание было уместным, но я могу ошибаться. Что ты предлагаешь?
Стив Самуэльс
Некоторые методы, упомянутые в CV, включают повышение CI, дельта-метод и профилирование функции правдоподобия.
whuber
Спасибо за Ваш ответ. Можно ли получить данные PUMS с помощью R? У меня нет SAS. Я вытащил данные PUMS перед использованием инструмента DataFerret, предоставленного переписью, но я не уверен, что это дает мне все, что я мог бы с пользой использовать в Excel, что я и имею. Я могу установить R, очевидно, но у меня нет никакого опыта с этим.
DanicaE
1
Пожалуйста, Даника. Если этот ответ полезен, поставьте галочку, чтобы принять его официально. Обратите внимание, что я обновил ответ. Я рекомендую указывать допустимые пределы ACS в качестве консервативных заменителей правильных.
Стив Самуэльс
4

FWIW есть хорошие ресурсы для ACS и доступа к PUMS здесь ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Также есть пакет для обработки данных ACS в CRAN, называемый, естественно, ACS, который я нашел действительно полезным для выполнения нетипичных вещей с данными ACS. Это хороший шаг за шагом для пакета (к сожалению, документация не очень интуитивно понятна) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
источник
3

добавив ссылку на http://asdfree.com в ответе @ pricele2 ... чтобы решить эту проблему с помощью свободного программного обеспечения, я бы рекомендовал вам выполнить следующие действия:

(1) ( два часа кропотливой работы ) познакомиться с языком r. смотреть первые 50 видео по две минуты

http://twotorials.com/

(2) ( один час простого следования инструкциям ) установите monetdb на свой компьютер

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( тридцать минут следования инструкциям + загрузка в течение ночи ) загрузите файлы ACS на свой компьютер. получить только те годы, которые вам нужны.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( четыре часа обучения, программирования и проверки вашей работы ) перекодировать переменные, которые вам нужно перекодировать, в соответствии с любыми спецификациями, которые вам нужны

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( два часа фактического анализа ) запустите нужную команду, запишите стандартную ошибку и вычислите доверительный интервал.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( четыре часа программирования ), если вам нужен оценщик отношения, следуйте примеру оценки отношения (со стандартной ошибкой, скорректированной с учетом обследования) здесь:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Энтони Дамико
источник
Спасибо, это отличные ресурсы. Если кто-то еще приходит сюда в поисках этой информации, я использую учебники R: datacamp.com и coursera.org/course/rprog . Data Camp - это фантастический интерактивный учебник. Курс Coursera более сложен в теории / структуре / названиях вещей.
DanicaE