Примером хорошей меры отделимости классов у учащихся с линейным дискриминантом является коэффициент линейного дискриминанта Фишера. Существуют ли другие полезные метрики, чтобы определить, обеспечивают ли наборы функций хорошее разделение классов между целевыми переменными? В частности, я заинтересован в поиске хороших многомерных входных атрибутов для максимального разделения целевых классов, и было бы неплохо иметь нелинейную / непараметрическую меру, чтобы быстро определить, обеспечивают ли они хорошую разделимость.
11
Ответы:
Меры переменной важности (VIM) из случайных лесов могут быть тем, что вы ищете. Краткий обзор двух из них приведен в документе « Обзор методологии случайных лесов и практического руководства с акцентом на вычислительную биологию и биоинформатику», представленном Boulesteix et al.
Идея для Gini VIM заключается в том, что вы получаете некоторую статистику того, как часто случайный лес использовал определенный атрибут в качестве критерия разделения. Информативные особенности выбираются здесь чаще.
Перестановка VIM основана на идее о том , что из -за ошибки оценки RF-классификаторе по сравнению между
Результирующая разница в оценке ошибок будет большой для важных функций.
Насколько я помню, VIM также могут быть использованы для обнаружения зависимостей между функциями.
источник
Поиск оптимального набора функций может быть довольно дорогим в вычислительном отношении. Основные категории доступных решений могут быть сгруппированы в два набора: либо привязка к определенному классификатору (обертки), либо простое ранжирование объектов на основе некоторого критерия (методы фильтра).
Исходя из ваших требований (быстрый / непараметрический / нелинейный), вероятно, вам нужны кандидаты из методов фильтра. Есть немало примеров описанных в литературе . Например, Information Gain - оценивает ценность атрибута путем измерения прироста информации по отношению к классу; или Корреляция, которая оценивает ценность атрибута на основе корреляции между атрибутом и классом.
Методы-обертки привязываются к классификатору и могут в конечном итоге обеспечить лучший набор функций для интересующего классификатора. Из-за их характера (полное обучение / тестирование в каждой итерации) их нельзя считать быстрыми или непараметрическими, однако они могут иметь дело с нелинейными отношениями функций (ваше 3-е требование). Примером может служить Рекурсивное исключение признаков, основанное на SVM, которое, таким образом, нацелено на максимизацию разрыва между классами и может иметь дело с нелинейными отношениями признаков (с использованием нелинейного ядра).
источник