Категоризация подходов к работе с несбалансированными классами

8

Каков наилучший способ классификации подходов, разработанных для решения проблемы класса дисбаланса?

Эта статья разделяет их на:

  1. Предварительная обработка: включает передискретизацию, недостаточную выборку и гибридные методы,
  2. Чувствительное к затратам обучение: включает в себя прямые методы и мета-обучение, которые последние делят на пороговые значения и выборку,
  3. Методы ансамбля: включает в себя чувствительные к стоимости ансамбли и предварительную обработку данных в сочетании с обучением ансамблю.

Вторая классификация:

  1. Предварительная обработка данных: включает изменение распределения и взвешивание пространства данных. Одноклассное обучение рассматривается как изменение распределения.
  2. Специальные методы обучения
  3. Постобработка прогноза: включает пороговый метод и постобработку с учетом затрат
  4. Гибридные методы:

Третья статья :

  1. Методы уровня данных
  2. Методы уровня алгоритма
  3. Гибридные методы

Последняя классификация также рассматривает корректировку выпуска как независимый подход.

Заранее спасибо.

Ebrahimi
источник
4
Очень короткий ответ: все они лучшие, а все худшие! Классификация и интеллектуальный анализ данных в целом очень чувствительны к контексту. В этой области нет единого решения, подходящего для всех. Между прочим, наилучший подход, в общих чертах, обычно представляет собой сочетание лучших решений на разных уровнях от выделения признаков до схемы оценки.
мок
@mok Спасибо. Не могли бы вы сообщить мне вес класса в классификаторах sklearn, например, логистическая регрессия классифицируется на какую категорию?
ebrahimi
@ebrahimi, он должен попадать в уровень алгоритма, потому что только веса корректируются в соответствии с переданным словарем или вычисляются (выводятся) в соответствии со значениями y (класса), а данные остаются нетронутыми.
Санджай Кришна
@SanjayKrishna Большое спасибо. В случае первой классификации, это относится к обучению с учетом затрат, не так ли? Кроме того, в случае второй таксономии, она будет классифицироваться на третью категорию, то есть чувствительную к затратам последующую обработку. это правда? Второй ответ на этот вопрос: stackoverflow.com/questions/32492550/… также полезен.
Эбрахими

Ответы:

5

На мой взгляд, все три классификации во многом совпадают. Например, все три имеют категорию для этапов предварительной обработки.

Я бы, как правило, согласился с третьей категоризацией как с более общей и охватывающей больше вещей.

  • Данные уровня категория включает в себя любые предварительных обработках шагов , касающийся класс дисбаланс (например , над / под выборкой).
  • Алгоритм уровня можно рассмотреть вопрос о включении второй категории первых двух статей. Любое изменение в алгоритме, которое имеет дело с дисбалансом класса, будет здесь (например, взвешивание класса).
  • Наконец, гибридная категория для объединения двух.

Единственное, чего не хватает в первых двух статьях, - это этапы постобработки, которые, честно говоря, не используются на практике так часто, как другие.

Это я Марио
источник