Поэтапная логистическая регрессия и выборка

13

Я подгоняю пошаговую логистическую регрессию к набору данных в SPSS. В этой процедуре я подгоняю свою модель к случайному подмножеству, которое составляет ок. 60% от общей выборки, что составляет около 330 случаев.

Что мне показалось интересным, так это то, что каждый раз, когда я повторно выбираю свои данные, я получаю различные переменные, появляющиеся и выходящие в окончательной модели. Несколько предикторов всегда присутствуют в окончательной модели, но другие появляются и исчезают в зависимости от выборки.

У меня вопрос такой. Каков наилучший способ справиться с этим? Я надеялся увидеть сближение переменных предикторов, но это не так. Некоторые модели имеют гораздо более интуитивный смысл с оперативной точки зрения (и их будет легче объяснить лицам, принимающим решения), а другие лучше соответствуют данным.

Короче говоря, поскольку переменные перемешиваются, как бы вы порекомендовали справиться с моей ситуацией?

Спасибо заранее.

Btibert3
источник

Ответы:

16

Если вы собираетесь использовать пошаговую процедуру, не повторяйте выборку. Создайте одну случайную подвыборку раз и навсегда. Проведите свой анализ на нем. Проверьте результаты по сохраненным данным. Вероятно, большинство «значимых» переменных окажется несущественными.

( Изменить 12/2015: вы действительно можете выйти за рамки такого простого подхода путем повторной выборки, повторения пошаговой процедуры и повторной проверки: это приведет вас к форме перекрестной проверки. Но в таком случае более сложные методы переменных выбор, такой как регрессия гребня, лассо и эластичная сеть, вероятно, предпочтительнее ступенчатой ​​регрессии.)

Сосредоточьтесь на переменных, которые имеют смысл, а не на тех, которые немного лучше соответствуют данным. Если у вас есть более чем несколько переменных для 330 записей, вы в первую очередь рискуете переобучиться. Подумайте об использовании довольно строгих критериев входа и выхода для ступенчатой ​​регрессии. Основывайте его на AIC или вместо порогов для тестов или тестов.СпFT

(Я предполагаю, что вы уже провели анализ и исследование для определения соответствующих повторных выражений независимых переменных, что вы определили вероятные взаимодействия, и что вы установили, что между логитом зависимой переменной действительно существует приблизительно линейная связь и регрессоры. Если нет, выполните эту важную предварительную работу и только затем вернитесь к ступенчатой ​​регрессии.)

Будьте осторожны, следуя общим советам, которые я только что дал, кстати :-). Ваш подход должен зависеть от цели анализа (прогнозирование, экстраполяция, научное понимание, принятие решений), а также от характера данных, количества переменных и т. Д.

Whuber
источник
2
+1 за подчеркивание важности интерпретации модели. Я не буду ничего добавлять о неинформированном подходе ML (или методах ансамбля) с более сложными схемами перекрестной проверки, потому что я чувствую, что вы уже сказали, что здесь действительно важно: (1) выбор функции посредством повторной выборки вряд ли можно интерпретировать изолированно (т. Е. сравнивая один результат за другим), и (2) все зависит от того, ищем ли мы предсказательную или объяснительную модель.
ЧЛ
Спасибо за ваше понимание. Я провел предварительную проверку, чтобы сузить область поиска и просто хочу найти лучшую модель для прогнозирования с наименьшим количеством переменных. Я добавляю только 7 предикторов в модель, что, как я понимаю, должно быть в порядке. Я понимаю идею придерживаться образца, но, с другой стороны, моя модель принципиально отличалась и показала, что результаты полностью зависят от образца, что заставило меня задуматься.
Btibert3
@ Btibert3 Справа: когда результаты варьируются среди случайных подмножеств ваших данных, вы можете принять это как доказательство того, что независимые переменные не являются сильными или непротиворечивыми предикторами независимой переменной.
whuber
12

Важный вопрос: «Зачем вам нужна модель с как можно меньшим количеством переменных?». Если вы хотите иметь как можно меньше переменных, чтобы минимизировать затраты на сбор данных для оперативного использования вашей модели, тогда ответы от whuber и mbq - отличное начало.

Если прогнозирующая производительность - это то, что действительно важно, то вам, вероятно, лучше вообще не делать какого-либо выбора объектов и использовать вместо этого регуляризованную логистическую регрессию (см. Регрессию гребня). На самом деле, если бы прогнозирующие характеристики имели первостепенное значение, я бы использовал упорядоченную упорядоченную логистическую регрессию как своего рода стратегию «пояс и скобки», чтобы избежать чрезмерного подбора небольшого набора данных. Миллар в своей книге по выбору подмножества в регрессии дает в значительной степени этот совет в приложении, и я обнаружил, что он является отличным советом для задач с большим количеством функций и не очень большим количеством наблюдений.

Если понимание данных важно, то нет необходимости, чтобы используемая модель понимала данные как те, которые использовались для прогнозирования. В этом случае я бы многократно повторял выборку данных и просматривал шаблоны выбранных переменных по выборкам, чтобы найти, какие переменные были информативными (как подсказывает mbq, если выбор функции нестабилен, одна выборка не даст полную картину), но я бы все еще использовал пакетный регуляризованный ансамбль модели логистической регрессии для предсказаний.

Дикран Сумчатый
источник
1
+1 за указатель на упорядоченную логистическую регрессию. Однако неясно, как можно формально «смотреть на шаблоны» при повторной выборке «данных много раз». Это очень похоже на отслеживание данных и, следовательно, может привести к разочарованию и ошибкам.
whuber
5
Выбор функции, когда выбор нестабилен, всегда будет причиной разочарования и ошибки. Использование только одного образца уменьшает разочарование, но увеличивает вероятность ошибки, так как побуждает вас делать выводы о релевантных особенностях проблемы, основываясь на том, что лучше всего работает на конкретном образце, на который вы смотрите - что является формой чрезмерного фитинг. Повторная выборка дает вам представление о неопределенности при выборе функции, что часто не менее важно. В этом случае мы не должны делать какие-либо убедительные выводы о соответствующих функциях, так как данных недостаточно.
Дикран Сумчатый
Хорошая точка зрения; Я ненавижу, когда люди только пересчитывают среднее значение, это такая трата.
10

В общем, есть две проблемы выбора функций:

  • минимальный оптимальный , где вы ищете наименьший набор переменных, которые дают вам наименьшую ошибку
  • все релевантные , где вы ищете все переменные, относящиеся к проблеме

Конвергенция выбора предикторов находится в области всех соответствующих проблем, что крайне сложно и, следовательно, требует гораздо более мощных инструментов, чем логистическая регрессия, сложные вычисления и очень бережное отношение.

Но, похоже, вы делаете первую проблему, поэтому вам не стоит об этом беспокоиться. Обычно я могу ответить на второй вопрос, но я не согласен с утверждением, что вы должны отказаться от повторной выборки - здесь это не будет метод стабилизации выбора функций, но, тем не менее, это будет симуляция для оценки производительности выбора связанных функций + обучение , так что даст вам уверенность в вашей точности.


источник
+1 Я волнуюсь, что многократная выборка будет только сбивать с толку и вводить в заблуждение. Контролируемая повторная выборка путем перекрестной проверки или выборки для проверки, очевидно, не представляет проблем.
whuber
6

Вы можете взглянуть на статью « Выбор стабильности » Майнсхаузена и Бульмана в JR Statist. Soc B (2010) 72 Часть 4, и обсуждение после него. Они учитывают, что происходит, когда вы многократно делите свой набор данных случайным образом на две половины и ищите функции в каждой половине. Предполагая, что то, что вы видите в одной половине, не зависит от того, что вы видите в совпадающей другой половине, вы можете доказать границы ожидаемого числа ошибочно выбранных переменных.

mcdowella
источник