Меня смущает анализ перестановок для выбора функций в контексте логистической регрессии.
Не могли бы вы дать четкое объяснение теста случайной перестановки и как он применяется к выбору функции? Возможно, с точным алгоритмом и примерами.
Наконец, как это можно сравнить с другими методами усадки, такими как лассо или LAR?
Ответы:
(У меня не так много времени, поэтому я отвечу кратко, а потом расскажу позже)
Скажем, мы рассматриваем проблему двоичной классификации и имеем обучающий набор из выборок класса 1 и n выборок класса 2. Тест перестановки для выбора функции рассматривает каждую функцию в отдельности. Тестовая статистика θ , такая как прирост информации или нормализованная разница между средними значениями, рассчитывается для объекта. Данные для объекта затем случайным образом переставляются и делятся на два набора, один из которых имеет размер m, а другой - размер n . Затем тестовая статистика θ p рассчитывается на основе этого нового раздела pm n θ m n θp p , В зависимости от вычислительной сложности задачи, это затем повторяется для всех возможных разбиений объекта на два набора порядка и n или их случайное подмножество.m n
Теперь, когда мы установили распределение по , мы вычислим p-значение, по которому наблюдаемая тестовая статистика θ возникла из случайного разбиения признака. Нулевая гипотеза состоит в том, что выборки из каждого класса происходят из одного и того же базового распределения (функция не имеет значения).θp θ
Этот процесс повторяется для всех объектов, и затем подмножество объектов, используемых для классификации, можно выбрать двумя способами:
источник