Я подгоняю пошаговую логистическую регрессию к набору данных в SPSS. В этой процедуре я подгоняю свою модель к случайному подмножеству, которое составляет ок. 60% от общей выборки, что составляет около 330 случаев.
Что мне показалось интересным, так это то, что каждый раз, когда я повторно выбираю свои данные, я получаю различные переменные, появляющиеся и выходящие в окончательной модели. Несколько предикторов всегда присутствуют в окончательной модели, но другие появляются и исчезают в зависимости от выборки.
У меня вопрос такой. Каков наилучший способ справиться с этим? Я надеялся увидеть сближение переменных предикторов, но это не так. Некоторые модели имеют гораздо более интуитивный смысл с оперативной точки зрения (и их будет легче объяснить лицам, принимающим решения), а другие лучше соответствуют данным.
Короче говоря, поскольку переменные перемешиваются, как бы вы порекомендовали справиться с моей ситуацией?
Спасибо заранее.
источник
Важный вопрос: «Зачем вам нужна модель с как можно меньшим количеством переменных?». Если вы хотите иметь как можно меньше переменных, чтобы минимизировать затраты на сбор данных для оперативного использования вашей модели, тогда ответы от whuber и mbq - отличное начало.
Если прогнозирующая производительность - это то, что действительно важно, то вам, вероятно, лучше вообще не делать какого-либо выбора объектов и использовать вместо этого регуляризованную логистическую регрессию (см. Регрессию гребня). На самом деле, если бы прогнозирующие характеристики имели первостепенное значение, я бы использовал упорядоченную упорядоченную логистическую регрессию как своего рода стратегию «пояс и скобки», чтобы избежать чрезмерного подбора небольшого набора данных. Миллар в своей книге по выбору подмножества в регрессии дает в значительной степени этот совет в приложении, и я обнаружил, что он является отличным советом для задач с большим количеством функций и не очень большим количеством наблюдений.
Если понимание данных важно, то нет необходимости, чтобы используемая модель понимала данные как те, которые использовались для прогнозирования. В этом случае я бы многократно повторял выборку данных и просматривал шаблоны выбранных переменных по выборкам, чтобы найти, какие переменные были информативными (как подсказывает mbq, если выбор функции нестабилен, одна выборка не даст полную картину), но я бы все еще использовал пакетный регуляризованный ансамбль модели логистической регрессии для предсказаний.
источник
В общем, есть две проблемы выбора функций:
Конвергенция выбора предикторов находится в области всех соответствующих проблем, что крайне сложно и, следовательно, требует гораздо более мощных инструментов, чем логистическая регрессия, сложные вычисления и очень бережное отношение.
Но, похоже, вы делаете первую проблему, поэтому вам не стоит об этом беспокоиться. Обычно я могу ответить на второй вопрос, но я не согласен с утверждением, что вы должны отказаться от повторной выборки - здесь это не будет метод стабилизации выбора функций, но, тем не менее, это будет симуляция для оценки производительности выбора связанных функций + обучение , так что даст вам уверенность в вашей точности.
источник
Вы можете взглянуть на статью « Выбор стабильности » Майнсхаузена и Бульмана в JR Statist. Soc B (2010) 72 Часть 4, и обсуждение после него. Они учитывают, что происходит, когда вы многократно делите свой набор данных случайным образом на две половины и ищите функции в каждой половине. Предполагая, что то, что вы видите в одной половине, не зависит от того, что вы видите в совпадающей другой половине, вы можете доказать границы ожидаемого числа ошибочно выбранных переменных.
источник
Не используйте пошагово! Смотри мою статью
источник