В простой классификации у нас есть два класса: класс-0 и класс-1. В некоторых данных у меня есть только значения для класса-1, поэтому нет для класса-0. Сейчас я думаю о создании модели для моделирования данных для класса 1. Таким образом, когда поступают новые данные, эта модель применяется к новым данным и находит вероятность, указывающую, насколько вероятно, что новые данные соответствуют этой модели. Затем, сравнивая с порогом, я могу отфильтровать несоответствующие данные.
Мои вопросы:
- Это хороший способ работать с такими проблемами?
- Можно ли использовать в этом случае классификатор RandomForest? Нужно ли добавлять искусственные данные для класса 0, которые, я надеюсь, классификатор считает шумом?
- Любая другая идея может помочь для этой проблемы?
источник
Позвольте мне добавить еще несколько возможностей:
Общая идея заключается в том, что установка порогового значения для расстояния от класса позволяет вам решить, принадлежит ли выборка к этому классу или нет, и независимо от того, существуют ли другие классы или нет.
SIMCA широко распространена в хемометрической литературе (хотя на самом деле редко используется в одном классе).
Ричард Дж. Бреретон: Хемометрика для распознавания образов (Wiley, 2009) имеет целую главу об одноклассной классификации.
источник