Рассмотрим данные выборки из популяции размером следующим образом: Для
Соблюдайте индивидуальный "статус" болезни
Если у них есть заболевание, включите их в выборку с вероятностью
Если у них нет заболевания, включите их с вероятностью .
Предположим , что вы наблюдали бинарную переменную результата и предсказателем вектора , для испытуемые пробы таким образом. Переменная результата не является статусом «болезни». Я хочу оценить параметры модели логистической регрессии:
Все, что меня волнует, это (log) коэффициенты шансов, . Перехват не имеет значения для меня.
Мой вопрос: могу ли я получить разумные оценки , игнорируя вероятности выборки , и подгоняя модель, как если бы это была обычная случайная выборка?
Я почти уверен, что ответ на этот вопрос «да». То, что я ищу, это ссылка, которая подтверждает это.
Я уверен в ответе по двум основным причинам:
Я провел много симуляционных исследований, и ни одно из них не противоречит этому, и
Нетрудно показать, что если популяция регулируется моделью, описанной выше, то модель, определяющая выборочные данные,
Если вероятности выборки не зависят от , то это будет представлять собой простой сдвиг к точке пересечения, и точечная оценка , очевидно, не будет затронута. Но, если смещения различны для каждого человека, эта логика не совсем применима, так как вы наверняка получите другую точную оценку, хотя я подозреваю, что что-то подобное делает. β
Связано: в классической работе Prentice and Pyke (1979) говорится, что коэффициенты логистической регрессии из случая-контроля (с состоянием болезни в качестве результата) имеют такое же распределение, как и данные, полученные из проспективного исследования. Я подозреваю, что этот же результат применим и здесь, но я должен признаться, что не до конца понимаю каждый кусочек статьи.
Заранее спасибо за любые комментарии / ссылки.
источник
Ответы:
Д я яPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Чтобы получить более подробную информацию, определите следующие обозначения: и ; относится к событию, которое в образце. Кроме того, предположим, что не зависит от для простоты. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
Вероятность для единицы в выборке равна по закону повторного ожидания. Предположим, что в зависимости от состояния болезни и других ковариат , результат не зависит от . В результате, i Pr ( Y i = 1 ∣ X i , S i = 1 )Yя= 1 я ДяХяУяSя Pr ( Y я = 1 | X я , S я = 1 )
Соблазн включить в качестве дополнительной объясняющей переменной и оценить модель на основе . Чтобы оправдать использование , нам нужно доказать, что , что эквивалентно условию, что является достаточной статистикой . Без дополнительной информации о вашем процессе отбора проб я не уверен, правда ли это. Давайте использовать абстрактные обозначения. Переменная наблюдаемости может рассматриваться как случайная функция от и других случайных величин, скажемDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di S i =S (Zi . Обозначим . Если
не зависит от условного для и , мы имеем
по определению независимости. Однако, если не зависит от после подготовки к и ,
интуитивно содержит некоторую соответствующую информацию о
, и в целом не ожидается, чтоSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Таким образом, в случае «однако», незнание выбора образца может вводить в заблуждение для вывода. Я не очень знаком с литературой по отбору проб в эконометрике. Я бы порекомендовал главу 16 «
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
Ограниченные зависимые и качественные переменные в эконометрике» - это систематическое рассмотрение вопросов, касающихся выбора выборки и дискретных результатов.источник