Стратегия борьбы с редкими событиями логистическая регрессия

27

Я хотел бы изучить редкие события в конечной популяции. Поскольку я не уверен, какая стратегия лучше всего подходит, я был бы признателен за советы и рекомендации, связанные с этим вопросом, хотя я хорошо понимаю, что он в значительной степени освещен. Я просто не знаю, с чего начать.

Моя проблема - политология, и у меня конечная численность, насчитывающая 515 843 записей. Они связаны с двоичной зависимой переменной с 513,334 "0" с и 2,509 "1" с. Я могу обозначить свои «1» как редкие события, так как они составляют только 0,49% населения.

У меня есть набор из 10 независимых переменных, с которыми я хотел бы построить модель, чтобы объяснить наличие «1». Как и многие из нас, я читал статью Кинга и Цзэна 2001 года об исправлении редких событий. Их подход состоял в том, чтобы использовать схему управления регистром, чтобы уменьшить число «0», а затем применить коррекцию к перехвату.

Однако в этом посте говорится, что аргумент Кинга и Цзэна не был необходим, если я уже собрал свои данные по всему населению, что является моим случаем. Поэтому я должен использовать классическую модель логита. К сожалению для меня, хотя я получаю хорошие значимые коэффициенты, моя модель совершенно бесполезна с точки зрения прогнозирования (не в состоянии предсказать 99,48% моих "1").

Прочитав статью King & Zeng, я захотел попробовать дизайн с контролем случая и выбрал только 10% из «0» со всеми «1». При почти одинаковых коэффициентах модель могла прогнозировать почти одну треть «1» применительно к полной совокупности. Конечно, есть много ложных срабатываний.

Таким образом, у меня есть три вопроса, которые я хотел бы задать вам:

1) Если подход King & Zeng является предвзятым, когда вы полностью осведомлены о населении, почему они используют ситуацию, когда они знают население в своей статье, чтобы доказать свою точку зрения?

2) Если у меня есть хорошие и значимые коэффициенты в логит-регрессии, но очень плохая предсказательная сила, означает ли это, что изменение, объясняемое этими переменными, не имеет смысла?

3) Как лучше всего справляться с редкими событиями? Я читал о модели relogit Кинга, подходе Фёрта, точном logit и т. Д. Я должен признаться, что я потерян среди всех этих решений.

Damien
источник
Число кажется знакомым ... случайно набор данных об этническом конфликте? Если да, то это временные ряды - я использовал модель выживания для большого успеха в исследовании этнических конфликтов ...
Кристиан Сауэр
Достаточно близко. Это набор данных о местонахождении конфликтных событий в Африке. Однако я изучаю расположение этих событий без учета времени.
Дэмиен
1
Ах, многие мои случаи поступили из Африки, поскольку там широко распространены этнические конфликты. Ты изучаешь географию? Будет ли огромной проблемой учитывать время? Я нашел это действительно полезным, особенно из-за того, что некоторые переменные меняются со временем (политическая система, холодная война и т. Д.)
Кристиан Сауэр
Я использую набор данных GED UCDP, который охватывает период 1989-2010 гг. Меня интересуют географические факторы, которые могут играть роль в локализации конфликтных событий. Различия во времени, конечно, есть, что сказать, но ответы на разные вопросы. Кроме того, многие из моих независимых переменных либо недоступны для разных периодов (растительный покров), либо не изменились вообще (топография)
Дэмиен
1
"(не может предсказать 99,48% моих" 1 ")." это звучит так, как будто вы используете какое-то произвольное правило отсечения [например, 0,5!] для классификации, тогда как вся идея логистической регрессии заключается в том, что выход является вероятностью - вы сами должны определить порог для балансировки ложных положительных / отрицательных
сторон

Ответы:

17

(1) Если у вас "полное знание населения", зачем вам модель, чтобы делать прогнозы? Я подозреваю, что вы неявно рассматриваете их как образец из гипотетической сверхпопуляции - смотрите здесь и здесь . Так что вы должны выбросить наблюдения из вашего образца? Нет. Король и Цзэн не защищают это:

[...] в таких областях, как международные отношения, количество наблюдаемых единиц (таких как войны) строго ограничено, поэтому в большинстве приложений лучше всего собрать все доступные единицы или большую их выборку. Тогда единственное реальное решение - сколько 0 собрать. Если сбор нулей бесплатен, мы должны собрать как можно больше, поскольку больше данных всегда лучше.

Y

(2) Основной проблемой здесь является использование неправильного правила оценки для оценки прогностической эффективности вашей модели. Предположим, что ваша модель была верна , поэтому для любого человека вы знали вероятность редкого события, скажем, укуса змеи в следующем месяце. Что еще вы узнаете, обуславливая произвольную отсечку вероятности и предсказывая, что те, кто выше ее, будут укушены, а те, кто ниже ее, не будут? Если вы сделаете отсечение 50%, вы, вероятно, предсказываете, что никто не будет укушен. Если вы сделаете это достаточно низким, вы можете предсказать, что все будут укушены. Ну и что? Разумное применение модели требует дискриминации - кому должен быть предоставлен единственный флакон против яда? - или калибровки - для кого стоит покупать ботинки, учитывая их стоимость по сравнению с укусом змеи?

Scortchi - Восстановить Монику
источник
Спасибо за ответ. Что касается (1), было бы более уместно говорить о выборке наблюдений, которые мы знаем до сих пор, чтобы объяснить возможность будущих событий? Что касается (2), я потратил минуту, пытаясь выяснить, что такое правило подсчета очков. Если я правильно понимаю статью в Википедии, я должен варьировать функцию оценки по разным значениям вероятности, для которых ожидается событие, а затем выбрать в качестве предельного значения вероятность, которая имеет наивысший балл. Если я выберу логарифмическое правило оценки, как мне реализовать ожидаемое значение?
Дэмиен
1
R2
@ Scortchi, поэтому вы бы рекомендовали использовать логистическую регрессию или нет для числа наблюдений / случаев, как в операциях (скажем, с ~ 10 непрерывными предикторами), если требуется вероятность случая, который кажется недооцененным? спасибо
user2957945
3

С одной стороны, мне интересно, насколько неточна ваша модель просто в том, что ваш процесс трудно предсказать, а ваших переменных недостаточно для этого. Есть ли другие переменные, которые могут объяснить больше?

С другой стороны, если вы можете привести свою зависимую переменную в качестве проблемы количества / порядкового номера (например, потери от конфликта или длительность конфликта), вы можете попробовать регрессию с нулевым счетом или модели с препятствиями. Они могут иметь ту же проблему плохого определения между 0 и 1, но некоторые конфликты, с которыми коррелируют ваши переменные, могут отойти от нуля.

gregmacfarlane
источник
4
(+1) Хорошие предложения. Я хотел бы подчеркнуть, что «неточность» модели - это просто неспособность предсказать многие вероятности свыше 50%. Если «1» обычно имеют прогнозируемые вероятности от 10% до 40% по сравнению с чуть менее 0,5% для «0» - это считается сильной прогнозирующей эффективностью во многих приложениях.
Scortchi - Восстановить Монику
2

В дополнение к понижающей выборке для большинства населения вы можете также подвергнуть избыточной выборке редкие события, но имейте в виду, что избыточная выборка для класса меньшинства может привести к переобучению, поэтому проверьте все тщательно.

Эта статья может дать больше информации об этом: Yap, Bee Wah, et al. «Применение избыточной выборки, выборочной выборки, пакетирования и ускорения при обработке несбалансированных наборов данных». PDF

Кроме того, я хотел бы связать этот вопрос, так как он обсуждает ту же проблему, а также

Алексей Григорьев
источник
0

Ваш вопрос сводится к тому, как я могу угадать регрессию логита, чтобы найти лучшее решение. Но уверены ли вы, что существует лучшее решение? С только десятью параметрами, вы смогли найти лучшее решение?

Я бы попробовал более сложную модель, например, добавив термины продукта на входе или добавив слой максимального выхода на целевой стороне (чтобы у вас было по существу несколько логистических регрессоров для различных адаптивно обнаруженных подмножеств целевых единиц).

Нил Г
источник
Спасибо за Ваш ответ. Я обязательно попробую объединить мои переменные по-разному. Но прежде я хочу знать, происходят ли плохие характеристики моей модели из-за технических проблем или из-за чего-то другого
Дэмиен
-1

Отличный вопрос

На мой взгляд, вопрос в том, пытаетесь ли вы сделать вывод (вас интересует, что ваши коэффициенты говорят вам?) Или прогнозировать. Если последнее, то вы можете позаимствовать модели из машинного обучения (BART, randomForest, расширенные деревья и т. Д.), Которые почти наверняка лучше справятся с прогнозированием, чем logit. Если вы делаете вывод и у вас так много точек данных, попробуйте включить разумные термины взаимодействия, полиномиальные термины и т. Д. В качестве альтернативы вы можете сделать вывод из BART, как показано в этой статье:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Недавно я работал над редкими событиями и заранее не знал, насколько редкие случаи могут повлиять на анализ. Преобразование в 0 случаев обязательно. Одна из стратегий, чтобы найти идеальную пропорцию вниз по выборке, была бы

  1. Возьми все свои 1, скажем, у тебя n1 из них.
  2. Установите некоторое значение z = кратное n1, которое вы будете рисовать; возможно, начните с 5 и уменьшите до 1.
  3. ничья z * n1 0 наблюдений
  4. Оцените вашу модель на основе выборки данных вашего подмножества, убедившись, что вы выполняете перекрестную проверку всего набора данных
  5. Сохраните соответствующие подходящие меры, которые вас интересуют: представляющие интерес коэффициенты, AUC кривой ROC, соответствующие значения в матрице путаницы и т. Д.
  6. Повторите шаги 2: 5 для последовательно меньших zs. Вероятно, вы обнаружите, что при понижении частоты отношение ложно-отрицательного к ложному положительному (в вашем наборе тестов) будет уменьшаться. То есть вы начнете предсказывать больше 1, надеюсь, это действительно 1, но также и многие, которые на самом деле равны 0. Если в этой неправильной классификации есть седловая точка, то это будет хороший коэффициент понижающей дискретизации.

Надеюсь это поможет. JS

Джим
источник
1
(-1) Нет необходимости нисходящей выборки для логистической регрессии. Смотрите здесь ; выбор ответа только изменяет ожидаемый перехват, поэтому понижающая выборка только снижает точность расчетных отношений шансов. Логистическая регрессия дает вам прогнозируемые вероятности, которые вы можете использовать для классификации, используя пороговые значения, рассчитанные для учета затрат на различные виды неправильной классификации, или использовать для ранжирования отдельных лиц, или проявлять интерес к их собственным правам.
Scortchi - Восстановить Монику
Вы заметите, что я не упомянул об использовании логистической регрессии, а вместо этого предположил, что есть методы (такие как BART с пониженной выборкой), которые, вероятно, больше подходят для редких случаев.
Джим
Вопрос о логистической регрессии и о том, следует ли уменьшать выборку при ее выполнении, и вы, кажется, обсуждаете логистическую регрессию, когда пишете о «включении разумных терминов взаимодействия, полиномиальных терминов»; поэтому неясно, что ваш совет по понижающей выборке предназначен только для использования с альтернативными методами: возможно, вы захотите изменить свой ответ, чтобы прояснить его.
Scortchi - Восстановить Монику