У нас много хороших дискуссий по поводу идеального разделения в логистической регрессии. Например, логистическая регрессия в R привела к идеальному разделению (феномен Хаука-Доннера). Что теперь? и модель логистической регрессии не сходится .
Лично я все еще чувствую, что это не интуитивно понятно, почему это будет проблемой и почему добавление регуляризации исправит это. Я сделал несколько анимаций и думаю, что это будет полезно. Поэтому оставьте свой вопрос и ответьте на него самостоятельно, чтобы поделиться с сообществом.
Ответы:
Двухмерная демонстрация с игрушечными данными будет использована для объяснения того, что происходило для идеального разделения при логистической регрессии с регуляризацией и без нее. Эксперименты начались с перекрывающегося набора данных, и мы постепенно разделили два класса. Контур и оптимум целевой функции (логистические потери) будут показаны на правой под фигуре. Данные и границы линейного решения изображены на левом вспомогательном рисунке.
Сначала мы попробуем логистическую регрессию без регуляризации.
Далее мы попробуем логистическую регрессию с регуляризацией L2 (L1 аналогично).
С той же самой установкой добавление очень маленькой регуляризации L2 изменит целевую функцию, изменяя отношение к разделению данных.
В этом случае у нас всегда будет «выпуклая» цель. Независимо от того, насколько разделены данные.
код (я также использую тот же код для этого ответа: методы регуляризации для логистической регрессии )
источник