Обследование доходов и участия в программе (SIPP) Бюро переписей США имеет, среди прочего, следующие переменные:
epdtbhn
: Оплачиваемая работа в течение отчетного периодаersnowrk
: Основная причина отсутствия работы в течение отчетного периодаtpmsum*
: Заработок с работы, полученный в этом месяцеeeno*
: Индекс / номер работодателя поперечной волны Уникальный номер работы, который будет оставаться неизменным от волны к волне.
Теперь я смотрю на следующего человека из волны 2008 года:
br ssuid ersnowrk epdjbthn tpmsum* eeno* if ssuid == "019925011535"
- В мае 2012 года этот человек был объявлен не способным найти работу
epdjbthn == No
. - В следующем месяце
epdtbhn == Yes
: У него была работа (в соответствии сersnowrk == Not In Universe
). Тем не менее, все переменные занятости (tpmsum*
,eeno*
) также всеnot in Universe
.
Это явно противоречивые данные. Флаг выделения для epdjbthn
говорит о том, что данные не были вменены. Флаг распределения для переменных занятости не имеет смысла (так как они не во вселенной). Означает ли это, что я могу рассчитывать на то, что человек найдет реальную работу, даже если ни одна из других переменных занятости не говорит об этом?
micro-data
FooBar
источник
источник
Классический пример несоответствия в данных опроса. Многим это нравилось при использовании BHPS для Великобритании. Разве во Вселенной также нет пропущенных данных? Если вы заинтересованы в изучении вопросов, связанных с заработной платой, это бесполезное наблюдение, и самое большее, что вы можете сделать, - это оценить, существует ли какой-либо тип пропущенных данных, основанный на не пропущенных характеристиках. Другой вариант - посмотреть на историю работы. Поскольку ваши данные кажутся панелью, возможно, они включают такие переменные. BHPS, по крайней мере, полон их, и позволяет вам оценить эти проблемы.
Лучоначо
Я отредактировал вопрос, чтобы прояснить, что он относится к США, так как SIPP может иметь и другие значения в других местах (в Великобритании это означает «Самостоятельная личная пенсия»).
Адам Бейли
@luchonacho Я хочу измерить найм и увольнения, а также провести различие между наймом и выходом из рабочей силы.
FooBar
Ммм, тогда это действительно важные наблюдения. У вас есть история работы? Другие переменные, такие как размер фирмы, род занятий, отрасль или что-то еще, которые указывают, действительно ли человек работает? Вы можете классифицировать ваши данные по качеству, например: полная информация, частичная информация, отсутствие информации, и провести анализ для различных подмножеств. Это может быть сравнение интересов. В любом случае, я бы по-прежнему предоставлял некоторый базовый анализ выбора, например, Хекмана, чтобы проверить смещение выбора.
Лучоначо