Должна ли выборка для логистической регрессии отражать реальное соотношение 1 и 0?

23

Предположим, я хочу создать модель логистической регрессии, которая может оценить вероятность появления некоторых видов животных, живущих на деревьях, на основе характеристик деревьев (например, высоты). Как всегда, мое время и деньги ограничены, поэтому я могу собрать только ограниченный размер выборки.

У меня есть следующие вопросы: должно ли соотношение 1 и 0 в моей выборке отражать истинное соотношение 1 и 0? (по крайней мере приблизительно) Я заметил, что обычной практикой является выполнение модели логистической регрессии со сбалансированной выборкой (равным числом 1 и 0), но такие модели дают сюрреалистически высокую вероятность появления - верно?

Есть ли какие-нибудь статьи / учебники, которые я могу использовать, чтобы ** поддержать идею о том, что модели, которые не отражают истинное соотношение 1 и 0, являются « неправильными »? **

И наконец: возможно ли выполнить выборку 1: 1 и затем скорректировать модель с помощью тау согласно Imai et al. 2007?

Косуке Имаи, Гари Кинг и Оливия Лау. 2007. «relogit: логистическая регрессия редких событий для дихотомических зависимых переменных», в Kosuke Imai, Gary King и Olivia Lau, «Zelig: Статистическое программное обеспечение для всех», http: //gking.harvard.edu/zelig.

введите описание изображения здесь

Точки обозначают деревья (красные = занятые, серые = незанятые). Я могу идентифицировать все занятые деревья с точностью 100% (1), но я не могу измерить все деревья в лесу. Модель отличается для каждой стратегии выборки (соотношение).

Ladislav Naďo
источник

Ответы:

15

Если целью такой модели является прогнозирование, то вы не можете использовать невзвешенную логистическую регрессию для прогнозирования результатов: вы будете чрезмерно прогнозировать риск. Сила логистических моделей заключается в том, что отношение шансов (ИЛИ) - «наклон», который измеряет связь между фактором риска и бинарным исходом в логистической модели - не зависит от выборки, зависящей от результата. Таким образом, если выборки ведутся в соотношении 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 к элементам управления, это просто не имеет значения: ИЛИ остается неизменным в любом сценарии, пока выборка является безусловной на экспозиции (который привел бы к уклону Берксона). Действительно, выборочно-зависимая выборка - это экономия средств, когда полная простая случайная выборка просто не произойдет.

Почему прогнозы риска смещены из выборки, зависящей от результата, с использованием логистических моделей? Выборка, зависящая от результата, влияет на перехват в логистической модели. Это приводит к тому, что S-образная кривая ассоциации «скользит вверх по оси X» на основе разности лог-шансов выборки случая в простой случайной выборке в совокупности и лог-шансов выборки случая в псевдо -популяция вашего экспериментального дизайна. (Таким образом, если у вас есть контрольные случаи 1: 1, есть вероятность 50% отобрать случай в этой псевдопопуляции). В редких случаях это довольно большая разница, в 2 или 3 раза.

Когда вы говорите, что такие модели являются «неправильными», вы должны сосредоточиться на том, является ли цель выводом (верно) или предсказанием (неправильно). Это также касается отношения результатов к случаям. Язык, который вы склонны видеть вокруг этой темы, - это то, что вы называете такое исследование «изучением случая», о котором много писали. Возможно, моя любимая публикация на эту тему - « Breslow and Day», в которой в качестве исторического исследования были охарактеризованы факторы риска редких причин рака (ранее невозможные из-за редкости событий). Исследования типа «случай-контроль» вызывают некоторое противоречие, связанное с частым неправильным толкованием результатов: в частности, сочетание ИЛИ с ОР (преувеличивает результаты), а также «исследовательская база» как посредник выборки и популяции, которая усиливает результаты.обеспечивает отличную критику их. Никакая критика, однако, не утверждала, что исследования типа «случай-контроль» по своей сути недействительны, я имею в виду, как вы могли бы? Они продвинули общественное здравоохранение в бесчисленных направлениях. В статье Миеттенена хорошо сказано, что вы можете даже использовать модели относительного риска или другие модели в выборке, зависящей от результата, и описывать расхождения между результатами и результатами на уровне популяции в большинстве случаев: на самом деле это не хуже, так как OR обычно является жестким параметром. интерпретировать.

Вероятно, лучший и самый простой способ преодолеть предвзятое отношение к прогнозам риска - использовать взвешенную вероятность. Скотт и Уайлд обсуждают весовые коэффициенты и показывают, что они исправляют термин «перехват» и прогнозы риска модели. Это лучший подход, когда есть априорные знания о доле случаев среди населения. Если распространенность результата фактически составляет 1: 100, и вы выбираете случаи для контроля 1: 1, вы просто взвешиваете контрольные величины на величину 100, чтобы получить согласованные параметры популяции и непредвзятые прогнозы риска. Недостатком этого метода является то, что он не учитывает неопределенность в распространенности населения, если он был оценен с ошибкой в ​​другом месте. Это огромная область открытых исследований, Ламли и Бреслоупришел очень далеко с некоторой теорией о двухфазной выборке и вдвойне надежной оценкой. Я думаю, что это невероятно интересный материал. Программа Зелига, кажется, просто является реализацией функции веса (которая кажется немного избыточной, так как функция R glm учитывает веса).

Adamo
источник
(+1) Стоит ли упоминать предварительную коррекцию как, возможно, самый простой способ отрегулировать перехват для простой выборки «случай-контроль»?
Scortchi - Восстановить Монику
@ Scortchi Вы имеете в виду байесовскую логистическую регрессию с информативной информацией до перехвата? Или ограниченная оптимизация? Я на самом деле не знаком с тем, что это может быть.
AdamO
1
Просто простой расчет здесь: stats.stackexchange.com/a/68726/17230 . (Сейчас я не совсем уверен, где я взял эту терминологию или насколько она стандартна.) Я слышал, что взвешивание работает лучше для неправильно определенных моделей.
Scortchi - Восстановить Монику
@ Scortchi Ах, это было бы довольно легко! Это должно быть хорошо для прогнозирования, пока оценки ошибок не требуются. Взвешивание даст вам другой SE для перехвата и наклона, но этот метод не повлияет ни на один.
AdamO