Применение логистической регрессии с низкой частотой событий

15

У меня есть набор данных , в котором частота событий очень низка (40000 отказа от ). Я применяю логистическую регрессию по этому вопросу. У меня была дискуссия с кем-то, где выяснилось, что логистическая регрессия не даст хорошей матрицы путаницы для данных с такой низкой частотой событий. Но из-за бизнес-проблемы и способа ее определения я не могу увеличить число событий с 40 000 до большего числа, хотя я согласен с тем, что могу удалить какое-то незапланированное население.12105

Пожалуйста, скажите мне свое мнение по этому вопросу, а именно:

  1. Зависит ли точность логистической регрессии от частоты событий или есть минимальная частота событий, которая рекомендуется?
  2. Есть ли какая-то специальная техника для данных с низкой частотой событий?
  3. Будет ли удаление моей популяции, которая не принадлежит никому, хорошо для точности моей модели?

Я новичок в статистическом моделировании, поэтому простите мое невежество и, пожалуйста, решайте любые связанные с этим вопросы, о которых я мог подумать.

Благодарность,

Аюш Бияни
источник
3
40000 / 12e5 = 3,3%, это не выглядит для меня очень низким показателем.
ГаБоргуля
1
Спасибо, если людям нужно больше контекста для определения низкой и высокой частоты событий, эти данные относятся к страховому сектору.
Аюш Бияни
3
Возможно, вас заинтересует Логистическая регрессия в данных редких событий .
Бернд Вайс

Ответы:

11

Я собираюсь ответить на ваши вопросы не по порядку:

3 Было бы хорошо, если бы удаление моего незападного населения было бы хорошим для точности моей модели?

Каждое наблюдение предоставит некоторую дополнительную информацию о параметре (через функцию правдоподобия). Поэтому нет смысла удалять данные, так как вы просто потеряете информацию.

1 Зависит ли точность логистической регрессии от частоты событий или есть минимальная частота событий, которая рекомендуется?

Технически, да: редкое наблюдение гораздо более информативно (то есть функция правдоподобия будет круче). Если бы ваше соотношение событий составляло 50:50, вы бы получили гораздо более узкие доверительные интервалы (или достоверные интервалы, если вы являетесь байесовским) для того же объема данных . Однако вы не можете выбирать частоту событий (если не проводите исследование «случай-контроль»), поэтому вам придется обходиться тем, что у вас есть.

2 Есть ли какая-либо специальная техника для данных с низкой частотой событий?

Самая большая проблема, которая может возникнуть, это идеальное разделение : это происходит, когда некоторая комбинация переменных дает все не-события (или все события): в этом случае оценки параметров максимального правдоподобия (и их стандартные ошибки) будут приближаться к бесконечности (хотя обычно алгоритм остановится заранее). Есть два возможных решения:

а) удаление предикторов из модели: хотя это сделает ваш алгоритм сходящимся, вы удалите переменную с наибольшей объяснительной силой, так что это имеет смысл только в том случае, если ваша модель была переобучена для начала (например, подгонка слишком большого количества сложных взаимодействий) ,

б) использовать какой-либо вид наказания, такой как предварительное распределение, которое сократит оценки до более разумных значений.

Саймон Бирн
источник
+1 Я бы также добавил, что видел контексты, в которых люди пересчитывали свои данные до 50:50. Компромисс, по-видимому, заключается в улучшении способности модели к классификации (при условии, что выбран хороший порог) по сравнению с некоторой потерей информации об общей распространенности и некоторыми дополнительными трудностями при интерпретации коэффициентов.
Дэвид Дж. Харрис
1
@ Дэвид: Я также слышал о людях, переоценивающих и использующих сложные схемы псевдо-начальной загрузки, где они только пересматривают высокочастотный класс. Для всех этих методов вы в конечном итоге выбрасываете (или выдумываете) данные. Я бы сказал, что если это улучшит вашу модель, то вы, вероятно, подходите не к той модели. Смотрите также мои комментарии здесь: stats.stackexchange.com/questions/10356/…
Саймон Бирн
1) Извините, если мне неясно: я говорил об изменении относительного влияния событий и событий, как с аргументом «весов» в glmфункции R. В худшем случае это все равно, что отбрасывать часть каждой уменьшенной точки данных, но это не совсем то же самое. 2) Как я уже сказал, есть компромиссы, связанные с этим решением. Вероятно, это имеет смысл в тех случаях, когда выборка из населения не является четко определенной, и истинная частота событий не имеет смысла с самого начала. Я конечно не рекомендовал бы это через правление.
Дэвид Дж. Харрис
2

Существует лучшая альтернатива удалению событий для временных или пространственных данных: вы можете агрегировать данные по времени / пространству и моделировать их как Пуассона. Например, если ваше событие «извержение вулкана происходит в день X», то не много дней будет извержение вулкана. Однако, если вы сгруппируете дни в недели или месяцы, например, «количество извержений вулкана в месяце X», то вы уменьшите количество событий, и у большего количества событий будут ненулевые значения.

charles.y.zheng
источник
6
Я должен сказать, что этот совет не отвечает на вопрос вообще. 1) Их вопрос в том, что предполагает, что OP имеет дело с пространственными или временными данными. 2) Как агрегирование данных поможет выявить какие-либо значимые отношения (в нем используется меньше информации, чем в исходных единицах!)
Энди У
2
Также в качестве примечания, чтобы любая наблюдаемая взаимосвязь имела место на агрегированном уровне, она должна присутствовать на уровне исходных единиц, хотя связь на агрегированном уровне не обязательно отражает то, как соотносятся две переменные на дезагрегированном уровне. уровень. См. Qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Энди В.
согласен с энди
Аюш Бияни