Каков наилучший способ автоматического выбора функций для обнаружения аномалий?
Обычно я рассматриваю обнаружение аномалий как алгоритм, в котором функции выбираются специалистами-людьми: важен выходной диапазон (например, «ненормальный вход - ненормальный выход»), поэтому даже со многими функциями вы можете создать гораздо меньшее подмножество, комбинируя особенности.
Однако, предполагая, что в общем случае список возможностей может быть огромным, возможно, автоматическое обучение иногда предпочтительнее. Насколько я вижу, есть несколько попыток:
- «Автоматический выбор характеристик для обнаружения аномалий» ( pdf ), который обобщает описание данных опорных векторов
- «Быстрая основанная на хосте система обнаружения вторжений, использующая грубую теорию множеств» (pdf недоступен?), Которая, как мне кажется, использует грубую теорию множеств
- «Правила обучения для обнаружения аномалий враждебного сетевого трафика» ( pdf , видео ), в которых используется статистический подход
Итак, теперь я задаюсь вопросом, может ли кто-нибудь сказать - при условии обнаружения аномалий и действительно большого (сотни?) Набора функций:
- Эти огромные наборы функций имеют смысл вообще? Разве мы не должны просто сократить набор функций, скажем, до нескольких десятков, и все?
- Если огромные наборы функций действительно имеют смысл, какой из приведенных выше подходов даст лучшие прогнозы и почему? Есть ли что-нибудь не перечисленное, что намного лучше?
- Почему они должны давать лучшие результаты по сравнению, скажем, с уменьшением размерности или построением объектов посредством кластеризации / ранжирования / и т. Д.?
feature-selection
outliers
andreister
источник
источник
Ответы:
Один из практических подходов (по крайней мере, в случае контролируемого обучения) состоит в том, чтобы включить все, возможно, соответствующие функции и использовать (обобщенную) линейную модель (логистическая регрессия, линейная SVM и т. Д.) С регуляризацией (L1 и / или L2). Существуют инструменты с открытым исходным кодом (например, Vowpal Wabbit), которые могут иметь дело с триллионами комбинаций примеров / функций для этих типов моделей, поэтому масштабируемость не является проблемой (кроме того, всегда можно использовать подвыборку). Регуляризация помогает справиться с выбором функций.
источник