Различия между рандомизированной логистической регрессией и простой ванильной логистической регрессией

12

Я хотел бы знать различия между рандомизированной логистической регрессией (RLR) и простой логистической регрессией (LR), поэтому я читаю статью «Выбор стабильности» , опубликованную Meinshausen et al. ; однако я не понимаю, что такое RLR и каковы различия между RLR и LR.

Может ли кто-нибудь указать, что я должен прочитать, чтобы понять RLR? Или есть простой пример для начала?

Хендра Буньямин
источник
1
RLR не является стандартным термином. Пожалуйста, определите метод.
Фрэнк Харрелл
Спасибо @FrankHarrell ... Метод исходит из библиотеки изучения scikit .
Хендра Буньямин
Теперь, когда появился новый сайт обмена стека для машинного обучения / больших данных, возможно, этот вопрос относится к этому.
Плацидия
4
@Placidia Это хорошее предложение. Тем не менее, ваш собственный ответ показывает, почему этот вопрос относится к этому вопросу: мы можем лучше представить сбалансированную точку зрения, которая точно характеризует и сравнивает как статистические, так и ОД аспекты этого вопроса. Хотя возможно, что кто-то на сайте «науки о данных» мог бы дать такой ответ, мой опыт показывает, что это будет маловероятно.
whuber
3
Я ошеломлен тем, что новый сайт - это наука о данных вызовов, которая более чем наполовину посвящена статистике, и именно этим и занимается этот сайт.
Фрэнк Харрелл

Ответы:

17

Вы можете проверить эту ссылку . Sci-kit learn реализует рандомизированную логистическую регрессию, и метод описан там.

Но чтобы ответить на ваш вопрос, эти два метода в значительной степени различаются по своим целям. Логистическая регрессия заключается в подборе модели, а RLR - в поиске переменных, которые входят в модель.

Ванильная логистическая регрессия является обобщенной линейной моделью. Для бинарного ответа мы полагаем, что логарифмические вероятности ответа являются линейной функцией от числа предикторов. Коэффициенты предикторов оцениваются с использованием максимальной вероятности, а затем вывод о параметрах основывается на свойствах большой выборки модели. Для достижения наилучших результатов мы обычно предполагаем, что модель достаточно проста и понятна. Мы знаем, какие независимые переменные влияют на ответ. Мы хотим оценить параметры модели.

Конечно, на практике мы не всегда знаем, какие переменные должны быть включены в модель. Это особенно верно в ситуациях машинного обучения, где число потенциальных объясняющих переменных огромно, а их значения редки.

На протяжении многих лет многие люди пытались использовать методы подбора статистической модели с целью выбора переменных (читай «особенность»). При повышении уровня надежности:

  1. Подберите большую модель и отбросьте переменные с незначительной статистикой Вальда. Не всегда производит лучшую модель.
  2. Посмотрите на все возможные модели и выберите «лучшие». Вычислительно интенсивный и не надежный.
  3. Установите большую модель с штрафным сроком L1 (стиль лассо). Бесполезные переменные сбрасываются в соответствии. Лучше, но нестабильно с разреженными матрицами.
  4. Метод рандомизации 3. Возьмите случайные подмножества, подберите для каждого из них штрафную модель и сопоставьте результаты. Переменные, которые часто появляются, выбираются. Когда ответ является двоичным, это рандомизированная логистическая регрессия. Подобную технику можно использовать с непрерывными данными и общей линейной моделью.
Placidia
источник
2
+1 Приятно видеть такой хорошо сформулированный, читаемый, информативный обзор общей методологии.
whuber