Я хотел бы изучить редкие события в конечной популяции. Поскольку я не уверен, какая стратегия лучше всего подходит, я был бы признателен за советы и рекомендации, связанные с этим вопросом, хотя я хорошо понимаю, что он в значительной степени освещен. Я просто не знаю, с чего начать.
Моя проблема - политология, и у меня конечная численность, насчитывающая 515 843 записей. Они связаны с двоичной зависимой переменной с 513,334 "0" с и 2,509 "1" с. Я могу обозначить свои «1» как редкие события, так как они составляют только 0,49% населения.
У меня есть набор из 10 независимых переменных, с которыми я хотел бы построить модель, чтобы объяснить наличие «1». Как и многие из нас, я читал статью Кинга и Цзэна 2001 года об исправлении редких событий. Их подход состоял в том, чтобы использовать схему управления регистром, чтобы уменьшить число «0», а затем применить коррекцию к перехвату.
Однако в этом посте говорится, что аргумент Кинга и Цзэна не был необходим, если я уже собрал свои данные по всему населению, что является моим случаем. Поэтому я должен использовать классическую модель логита. К сожалению для меня, хотя я получаю хорошие значимые коэффициенты, моя модель совершенно бесполезна с точки зрения прогнозирования (не в состоянии предсказать 99,48% моих "1").
Прочитав статью King & Zeng, я захотел попробовать дизайн с контролем случая и выбрал только 10% из «0» со всеми «1». При почти одинаковых коэффициентах модель могла прогнозировать почти одну треть «1» применительно к полной совокупности. Конечно, есть много ложных срабатываний.
Таким образом, у меня есть три вопроса, которые я хотел бы задать вам:
1) Если подход King & Zeng является предвзятым, когда вы полностью осведомлены о населении, почему они используют ситуацию, когда они знают население в своей статье, чтобы доказать свою точку зрения?
2) Если у меня есть хорошие и значимые коэффициенты в логит-регрессии, но очень плохая предсказательная сила, означает ли это, что изменение, объясняемое этими переменными, не имеет смысла?
3) Как лучше всего справляться с редкими событиями? Я читал о модели relogit Кинга, подходе Фёрта, точном logit и т. Д. Я должен признаться, что я потерян среди всех этих решений.
источник
Ответы:
(1) Если у вас "полное знание населения", зачем вам модель, чтобы делать прогнозы? Я подозреваю, что вы неявно рассматриваете их как образец из гипотетической сверхпопуляции - смотрите здесь и здесь . Так что вы должны выбросить наблюдения из вашего образца? Нет. Король и Цзэн не защищают это:
(2) Основной проблемой здесь является использование неправильного правила оценки для оценки прогностической эффективности вашей модели. Предположим, что ваша модель была верна , поэтому для любого человека вы знали вероятность редкого события, скажем, укуса змеи в следующем месяце. Что еще вы узнаете, обуславливая произвольную отсечку вероятности и предсказывая, что те, кто выше ее, будут укушены, а те, кто ниже ее, не будут? Если вы сделаете отсечение 50%, вы, вероятно, предсказываете, что никто не будет укушен. Если вы сделаете это достаточно низким, вы можете предсказать, что все будут укушены. Ну и что? Разумное применение модели требует дискриминации - кому должен быть предоставлен единственный флакон против яда? - или калибровки - для кого стоит покупать ботинки, учитывая их стоимость по сравнению с укусом змеи?
источник
С одной стороны, мне интересно, насколько неточна ваша модель просто в том, что ваш процесс трудно предсказать, а ваших переменных недостаточно для этого. Есть ли другие переменные, которые могут объяснить больше?
С другой стороны, если вы можете привести свою зависимую переменную в качестве проблемы количества / порядкового номера (например, потери от конфликта или длительность конфликта), вы можете попробовать регрессию с нулевым счетом или модели с препятствиями. Они могут иметь ту же проблему плохого определения между 0 и 1, но некоторые конфликты, с которыми коррелируют ваши переменные, могут отойти от нуля.
источник
В дополнение к понижающей выборке для большинства населения вы можете также подвергнуть избыточной выборке редкие события, но имейте в виду, что избыточная выборка для класса меньшинства может привести к переобучению, поэтому проверьте все тщательно.
Эта статья может дать больше информации об этом: Yap, Bee Wah, et al. «Применение избыточной выборки, выборочной выборки, пакетирования и ускорения при обработке несбалансированных наборов данных». PDF
Кроме того, я хотел бы связать этот вопрос, так как он обсуждает ту же проблему, а также
источник
Ваш вопрос сводится к тому, как я могу угадать регрессию логита, чтобы найти лучшее решение. Но уверены ли вы, что существует лучшее решение? С только десятью параметрами, вы смогли найти лучшее решение?
Я бы попробовал более сложную модель, например, добавив термины продукта на входе или добавив слой максимального выхода на целевой стороне (чтобы у вас было по существу несколько логистических регрессоров для различных адаптивно обнаруженных подмножеств целевых единиц).
источник
Отличный вопрос
На мой взгляд, вопрос в том, пытаетесь ли вы сделать вывод (вас интересует, что ваши коэффициенты говорят вам?) Или прогнозировать. Если последнее, то вы можете позаимствовать модели из машинного обучения (BART, randomForest, расширенные деревья и т. Д.), Которые почти наверняка лучше справятся с прогнозированием, чем logit. Если вы делаете вывод и у вас так много точек данных, попробуйте включить разумные термины взаимодействия, полиномиальные термины и т. Д. В качестве альтернативы вы можете сделать вывод из BART, как показано в этой статье:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Недавно я работал над редкими событиями и заранее не знал, насколько редкие случаи могут повлиять на анализ. Преобразование в 0 случаев обязательно. Одна из стратегий, чтобы найти идеальную пропорцию вниз по выборке, была бы
Надеюсь это поможет. JS
источник