Оценка коэффициентов логистической регрессии в схеме «случай-контроль», когда исходной переменной не является случай / статус контроля

10

Рассмотрим данные выборки из популяции размером N следующим образом: Для k=1,...,N

  1. Соблюдайте индивидуальный k "статус" болезни

  2. Если у них есть заболевание, включите их в выборку с вероятностью pk1

  3. Если у них нет заболевания, включите их с вероятностью pk0 .

Предположим , что вы наблюдали бинарную переменную результата Yi и предсказателем вектора Xi , для i=1,...,n испытуемые пробы таким образом. Переменная результата не является статусом «болезни». Я хочу оценить параметры модели логистической регрессии:

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Все, что меня волнует, это (log) коэффициенты шансов, . Перехват не имеет значения для меня.β

Мой вопрос: могу ли я получить разумные оценки , игнорируя вероятности выборки , и подгоняя модель, как если бы это была обычная случайная выборка?β{pi1,pi0}i=1,...,n


Я почти уверен, что ответ на этот вопрос «да». То, что я ищу, это ссылка, которая подтверждает это.

Я уверен в ответе по двум основным причинам:

  1. Я провел много симуляционных исследований, и ни одно из них не противоречит этому, и

  2. Нетрудно показать, что если популяция регулируется моделью, описанной выше, то модель, определяющая выборочные данные,

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Если вероятности выборки не зависят от , то это будет представлять собой простой сдвиг к точке пересечения, и точечная оценка , очевидно, не будет затронута. Но, если смещения различны для каждого человека, эта логика не совсем применима, так как вы наверняка получите другую точную оценку, хотя я подозреваю, что что-то подобное делает. βiβ

Связано: в классической работе Prentice and Pyke (1979) говорится, что коэффициенты логистической регрессии из случая-контроля (с состоянием болезни в качестве результата) имеют такое же распределение, как и данные, полученные из проспективного исследования. Я подозреваю, что этот же результат применим и здесь, но я должен признаться, что не до конца понимаю каждый кусочек статьи.

Заранее спасибо за любые комментарии / ссылки.

макрос
источник
1
Вы утверждаете, что «переменная результата не является состоянием болезни ». Что означает ? Добро пожаловать в резюме, кстати. Yi=1
gung - Восстановить Монику
1
другая переменная. Я имею в виду, что переменная, которая определяет вашу вероятность выборки (как правило, состояние заболевания в контроле случая), не совпадает с переменной результата - подумайте о вторичном анализе набора данных. Например, скажем, выборка была получена путем систематической выборки потребителей наркотиков и дополнительного набора (по частоте, с определенными ковариатами) не употребляющих наркотики, но изучаемая переменная результата - это другое измерение поведения. В этом случае схема выборки является неудобством. Спасибо, кстати! Yi
Макро

Ответы:

8

Д я яPr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Чтобы получить более подробную информацию, определите следующие обозначения: и ; относится к событию, которое в образце. Кроме того, предположим, что не зависит от для простоты. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Вероятность для единицы в выборке равна по закону повторного ожидания. Предположим, что в зависимости от состояния болезни и других ковариат , результат не зависит от . В результате, i Pr ( Y i = 1 X i , S i = 1 )Yi=1i ДяХяУяSя Pr ( Y я = 1 | X я , S я = 1 )

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSiPr(D i =1S i =1)= π 1 p i 1
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Легко видеть, что Здесь и соответствуют вашей схеме выборки. Таким образом, pi1pi0Pr(Yi=1Xi,Si=1)=π1pi1
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Если , мы имеем и вы можете опустить проблему выбора образца. С другой стороны, если , в общем. В качестве частного случая рассмотрим модель logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Даже когда и постоянны по , полученное распределение не сохранит логит. Что еще более важно, интерпретация параметров будет совершенно другой. Надеемся, что приведенные выше аргументы помогут немного прояснить вашу проблему.pi1pi0i

Соблазн включить в качестве дополнительной объясняющей переменной и оценить модель на основе . Чтобы оправдать использование , нам нужно доказать, что , что эквивалентно условию, что является достаточной статистикой . Без дополнительной информации о вашем процессе отбора проб я не уверен, правда ли это. Давайте использовать абстрактные обозначения. Переменная наблюдаемости может рассматриваться как случайная функция от и других случайных величин, скажемDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDi S i =S (Zi . Обозначим . Если не зависит от условного для и , мы имеем по определению независимости. Однако, если не зависит от после подготовки к и , интуитивно содержит некоторую соответствующую информацию о , и в целом не ожидается, чтоSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Таким образом, в случае «однако», незнание выбора образца может вводить в заблуждение для вывода. Я не очень знаком с литературой по отбору проб в эконометрике. Я бы порекомендовал главу 16 « Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookОграниченные зависимые и качественные переменные в эконометрике» - это систематическое рассмотрение вопросов, касающихся выбора выборки и дискретных результатов.

semibruin
источник
2
Спасибо. Это отличный ответ и имеет смысл. В моем приложении предположение, что не является реалистичным. Но было бы так же хорошо добавить в качестве предиктора и рассмотреть распределение . Используя аналогичный вывод, я думаю, вы можете показать, что если , то все в порядке. Это разумное предположение в моем случае. Что вы думаете? Кстати, есть ли у вас какие-либо ссылки, которые упоминают эту проблему? Я не знаком с эконометрической литературой. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Макро
Мне удобно думать о процессе отбора как о процессе Бернулли, то есть Согласно этому предположению о генерации данных, это испытание условно не зависит от , поэтому я думаю, что мы в порядке. Я ценю ваши усилия и понимание этой проблемы, и я принимаю ответ. Предполагая, что никто не приходит с точной ссылкой, которую я ищу (я бы скорее смог просто «процитировать» эту проблему, чем отвлекаться на расширенную дискуссию), я также награду вас за вознаграждение. Приветствия. Y i
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Макро
Этот процесс выбора соответствует вашей стратегии. Основываясь на такой проблеме выбора, ваша проблема становится примером случайного отсутствия (MAR) в литературе по отсутствующим данным. Спасибо за вашу награду.
полубрюин