Когда несбалансированные классы с избыточной / недостаточной выборкой, отличается ли максимальная точность от минимизации затрат на неправильную классификацию?

14

Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная к затратам классификация и методы выборки.

Кажется, что, столкнувшись с проблемой редкого класса, вы можете выполнить как чувствительную к затратам классификацию, так и выборку. Вместо этого я думаю, что следует применять чувствительные к стоимости методы, если редкий класс также является целью классификации, а неправильная классификация записи этого класса является дорогостоящей.

С другой стороны, методы выборки, такие как избыточная выборка и недостаточная выборка, полезны, если целью классификации является хорошая точность в целом, без сосредоточения внимания на конкретном классе.

Это убеждение исходит из обоснования MetaCost, который является общим способом сделать классификатор чувствительным к затратам: если кто-то хочет сделать классификатор чувствительным к затратам, чтобы наказать штраф за ошибочную классификацию редкого класса, ему следует пересмотреть другой класс. , Грубо говоря, классификатор пытается адаптироваться к другому классу, и он становится специфичным для редкого класса.

Это противоположность передискретизации редкого класса, который обычно предлагается для решения этой проблемы. Чрезмерная выборка редкого класса или недостаточная выборка другого класса полезна для повышения общей точности.

Пожалуйста, было бы здорово, если бы вы подтвердили мои мысли.

Итак, общий вопрос, стоящий перед несбалансированным набором данных:

Стоит ли пытаться получить набор данных, который насчитывает столько же редких записей, сколько и другие?

Мой ответ будет, если вы ищете точность: ОК. Вы можете выполнить это либо, обнаружив более редкие примеры классов, либо удалив некоторые записи другого класса.

Если вы сосредотачиваетесь на редком классе, используя технику, чувствительную к затратам, я бы ответил: вы можете найти только более редкий пример класса, но не должны удалять записи другого класса. В последнем случае вы не сможете позволить классификатору адаптироваться к другому классу, и редкая ошибка ошибочной классификации класса может возрасти.

Что бы вы ответили?

Симона
источник
2
«Найти» новые записи для редких классов может быть невозможно. Я предполагаю, что данные структурированы таким образом, потому что это дорого (биоинформатика) или рискованно (банковский кредит), чтобы создавать более редкие события класса.
Штеффен
Конечно, но это общее предлагаемое решение. Тем не менее, это правда, что если вы сможете найти более редкие примеры классов, вы можете найти и другие примеры. Потому что обучающий набор должен быть репрезентативным образцом вселенной записей. Так что, мне кажется, это похоже на выполнение передискретизации.
Симона

Ответы:

9

Это хороший вопрос. Лично я отвечу, что никогда не имеет смысла выбрасывать данные (если только это не связано с вычислительными соображениями), поскольку чем больше у вас данных, тем лучше может быть ваша модель мира. Поэтому я хотел бы предложить, чтобы изменение функции стоимости соответствующим образом для вашей задачи было достаточным. Например, если вас интересует один конкретный редкий класс, вы можете сделать неправильную классификацию этого класса только более дорогой; если вас интересует сбалансированная мера, подходит что-то вроде сбалансированной частоты ошибок (среднее количество ошибок в каждом классе) или коэффициент корреляции Мэтьюса ; если вас интересует только общая ошибка классификации, традиционная потеря 0-1 .

Современный подход к проблеме заключается в использовании активного обучения. Например, Hospedales et al (2011) «Поиск редких классов: активное обучение с порождающими и дискриминационными моделями, транзакции IEEE по знаниям и проектированию данных» (TKDE 2011) . Однако я считаю, что эти подходы все еще относительно менее развиты.

TDC
источник
Интересная мера Метвея, если нужна сбалансированная мера. Однако, учитывая, что мы не хотим удалять какие-либо записи, прежде чем выполнять выборку или модификацию функции стоимости, вы бы изменили баланс набора данных, добавив редкие примеры классов? Я думаю, что ответ может быть НЕТ. Потому что, пока вы находите редкие примеры классов, вы можете найти другие примеры. Таким образом, чтобы получить лучшую сбалансированную меру или лучшую меру производительности редкого класса (например, F-меру), я бы выполнил методику (такую ​​как выборка или мод стоимости) только после фазы сбора данных. Вы согласны?
Симона
Согласитесь, любые подобные операции должны выполняться после фазы сбора данных.
TDC