Справочная информация. В настоящее время моя организация сравнивает свои статистические данные о разнообразии рабочей силы (например,% инвалидов,% женщин,% ветеранов) с общей доступностью рабочей силы для этих групп на основе обследования американского сообщества (проект обследования Бюро переписи населения США). Это неточный ориентир, потому что у нас очень специфический набор рабочих мест, которые отличаются по демографии от рабочей силы в целом. Скажем, например, что в моей организации в основном инженеры. Инженерия - это только около 20% женщин в моем штате. Если мы сравним себя с общим показателем рабочей силы, который больше похож на 50% женщин, это приведет к панике, что «у нас только 20% женщин, это катастрофа!» в действительности, 20% - это то, что мы должны ожидать, потому что так выглядит рабочая среда.
Моя цель: то, что я хотел бы сделать, - это взять данные о профессии Американского общественного опроса (по категориям разнообразия) и перевесить их, основываясь на структуре рабочих мест в моем бизнесе. Вот примерный набор данных для работников социальных и общественных служб . Я хочу добавить эти коды работы, перечисленные вместе (поскольку наш пешеходный переход относится к группам работы, а не к конкретным кодам работы), затем я хочу взвесить этот эталон на основе количества людей, которые у нас есть в этой категории (например, наши 3000 социальных и Работники службы сообщества), затем я хочу сделать то же самое для всех остальных рабочих групп, сложить эти цифры вместе и разделить на общее число работников. Это дало бы мне новую пересмотренную меру разнообразия (например, от 6% инвалидов до 2% инвалидов).
Мои вопросы: Как я могу подогнать пределы погрешности к этому окончательному свернутому тесту? У меня нет необработанного набора данных переписи (очевидно), но вы можете просмотреть поля ошибок для каждого числа в предоставленной мной ссылке, переключив поле «Оценка» на «Поле ошибки» в верхней части таблицы. Другие мои коллеги, работающие с этими данными, намерены полностью игнорировать границы ошибок, но я обеспокоен тем, что мы создаем статистически бессмысленный эталон для себя. Можно ли использовать эти данные даже после манипуляций, описанных выше?
Ответы:
Обновление 2014-01-15
Я понимаю, что не ответил на первоначальный вопрос Даники о том, будет ли предел погрешности для косвенно откорректированной пропорции больше или меньше предела погрешности для той же частоты в ACS. Ответ таков: если пропорции категорий компаний существенно не отличаются от пропорций ACS в штатах, приведенная ниже допустимая погрешность будет меньше допустимой погрешности ACS. Причина: косвенный показатель относится к количеству лиц (или относительным пропорциям) в категории рабочих мест в организации как к фиксированным числам. Оценка ACS доли отключенных требует, по сути, оценки этих пропорций, и пределы погрешности увеличатся, чтобы отразить это.
Чтобы проиллюстрировать это, запишите коэффициент отключения как:
где р я это оценочные инвалиды скорости в категории я в ACS.п^я я
С другой стороны, расчетная скорость ACS в действительности:
где и N - соответственно категория населения и общие итоги, а N i / N - доля населения в категории i .Nя N Nя/ N я
Обновление 2014-01-14
Короткий ответ
На мой взгляд, было бы безответственно представлять такую статистику без CI или погрешности (половина длины CI). Чтобы их вычислить, вам необходимо загрузить и проанализировать образец микроданных общего пользования ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Длинный ответ
Это на самом деле не повторное взвешивание ACS. Это версия косвенной стандартизации, стандартная процедура в эпидемиологии (Google или см. Любой текст эпи). В этом случае уровни инвалидности по заданию (категории) штата ACS взвешиваются по количеству сотрудников в категории должностей организации. Это позволит рассчитать ожидаемое количество инвалидов в организации
E
, которое можно сравнить с наблюдаемым числомO
. Обычный показатель для сравнения - стандартизированный коэффициентR= (O/E)
. (Обычный термин «SMR», для «стандартизированного коэффициента смертности», но здесь «результат» - инвалидность.).R
это также отношение наблюдаемого уровня инвалидности(O/n)
и косвенно стандартизированного уровня(E/n)
, гдеn
число сотрудников организации.В этом случае кажется, что для
E
илиE/n
понадобится только CI , поэтому я начну с этого:Если
затем
Дисперсия
E
это:где
nn
- вектор-столбец количества категорий организаций иV
оценочная матрица дисперсии-ковариации показателей инвалидности категории ACS.Также, тривиально,
se(E) = sqrt(var(E))
иse(E/n) = se(E)/n
.и 90% CI для E
Разделите,
n
чтобы получить CI дляE/n
.Для оценки
var(E)
вам необходимо загрузить и проанализировать данные образца микроданных общего пользования ACS (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Я могу говорить только о процессе вычислений
var(E)
в Stata. Поскольку я не знаю, доступно ли это вам, я отложу детали. Однако кто-то, знающий о возможностях обследования R или (возможно) SAS, также может предоставить код из приведенных выше уравнений.Доверительный интервал для соотношения
R
Доверительные интервалы для
R
обычно основаны на предположении Пуассона дляO
, но это предположение может быть неверным.Мы можем считать
O
иE
быть независимыми, поэтомуvar(log(E))
может быть вычислен как еще один шаг Stata после вычисленияvar(E)
.При условии независимости Пуассона:
Программа, подобная Stata, может соответствовать, скажем, отрицательной биномиальной модели или обобщенной линейной модели и дать вам более точный дисперсионный термин.
Приблизительная 90% ДИ для
log R
ISи конечные точки могут быть возведены в степень для получения CI
R
.источник
FWIW есть хорошие ресурсы для ACS и доступа к PUMS здесь ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Также есть пакет для обработки данных ACS в CRAN, называемый, естественно, ACS, который я нашел действительно полезным для выполнения нетипичных вещей с данными ACS. Это хороший шаг за шагом для пакета (к сожалению, документация не очень интуитивно понятна) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
источник
добавив ссылку на http://asdfree.com в ответе @ pricele2 ... чтобы решить эту проблему с помощью свободного программного обеспечения, я бы рекомендовал вам выполнить следующие действия:
(1) ( два часа кропотливой работы ) познакомиться с языком r. смотреть первые 50 видео по две минуты
http://twotorials.com/
(2) ( один час простого следования инструкциям ) установите monetdb на свой компьютер
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( тридцать минут следования инструкциям + загрузка в течение ночи ) загрузите файлы ACS на свой компьютер. получить только те годы, которые вам нужны.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( четыре часа обучения, программирования и проверки вашей работы ) перекодировать переменные, которые вам нужно перекодировать, в соответствии с любыми спецификациями, которые вам нужны
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( два часа фактического анализа ) запустите нужную команду, запишите стандартную ошибку и вычислите доверительный интервал.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( четыре часа программирования ), если вам нужен оценщик отношения, следуйте примеру оценки отношения (со стандартной ошибкой, скорректированной с учетом обследования) здесь:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
источник