Если целью такой модели является прогнозирование, то вы не можете использовать невзвешенную логистическую регрессию для прогнозирования результатов: вы будете чрезмерно прогнозировать риск. Сила логистических моделей заключается в том, что отношение шансов (ИЛИ) - «наклон», который измеряет связь между фактором риска и бинарным исходом в логистической модели - не зависит от выборки, зависящей от результата. Таким образом, если выборки ведутся в соотношении 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 к элементам управления, это просто не имеет значения: ИЛИ остается неизменным в любом сценарии, пока выборка является безусловной на экспозиции (который привел бы к уклону Берксона). Действительно, выборочно-зависимая выборка - это экономия средств, когда полная простая случайная выборка просто не произойдет.
Почему прогнозы риска смещены из выборки, зависящей от результата, с использованием логистических моделей? Выборка, зависящая от результата, влияет на перехват в логистической модели. Это приводит к тому, что S-образная кривая ассоциации «скользит вверх по оси X» на основе разности лог-шансов выборки случая в простой случайной выборке в совокупности и лог-шансов выборки случая в псевдо -популяция вашего экспериментального дизайна. (Таким образом, если у вас есть контрольные случаи 1: 1, есть вероятность 50% отобрать случай в этой псевдопопуляции). В редких случаях это довольно большая разница, в 2 или 3 раза.
Когда вы говорите, что такие модели являются «неправильными», вы должны сосредоточиться на том, является ли цель выводом (верно) или предсказанием (неправильно). Это также касается отношения результатов к случаям. Язык, который вы склонны видеть вокруг этой темы, - это то, что вы называете такое исследование «изучением случая», о котором много писали. Возможно, моя любимая публикация на эту тему - « Breslow and Day», в которой в качестве исторического исследования были охарактеризованы факторы риска редких причин рака (ранее невозможные из-за редкости событий). Исследования типа «случай-контроль» вызывают некоторое противоречие, связанное с частым неправильным толкованием результатов: в частности, сочетание ИЛИ с ОР (преувеличивает результаты), а также «исследовательская база» как посредник выборки и популяции, которая усиливает результаты.обеспечивает отличную критику их. Никакая критика, однако, не утверждала, что исследования типа «случай-контроль» по своей сути недействительны, я имею в виду, как вы могли бы? Они продвинули общественное здравоохранение в бесчисленных направлениях. В статье Миеттенена хорошо сказано, что вы можете даже использовать модели относительного риска или другие модели в выборке, зависящей от результата, и описывать расхождения между результатами и результатами на уровне популяции в большинстве случаев: на самом деле это не хуже, так как OR обычно является жестким параметром. интерпретировать.
Вероятно, лучший и самый простой способ преодолеть предвзятое отношение к прогнозам риска - использовать взвешенную вероятность.
Скотт и Уайлд обсуждают весовые коэффициенты и показывают, что они исправляют термин «перехват» и прогнозы риска модели. Это лучший подход, когда есть априорные знания о доле случаев среди населения. Если распространенность результата фактически составляет 1: 100, и вы выбираете случаи для контроля 1: 1, вы просто взвешиваете контрольные величины на величину 100, чтобы получить согласованные параметры популяции и непредвзятые прогнозы риска. Недостатком этого метода является то, что он не учитывает неопределенность в распространенности населения, если он был оценен с ошибкой в другом месте. Это огромная область открытых исследований, Ламли и Бреслоупришел очень далеко с некоторой теорией о двухфазной выборке и вдвойне надежной оценкой. Я думаю, что это невероятно интересный материал. Программа Зелига, кажется, просто является реализацией функции веса (которая кажется немного избыточной, так как функция R glm учитывает веса).