Как количественно оценить избыточность функций?

10

У меня есть три функции, которые я использую для решения проблемы классификации. Первоначально эти функции создавали логические значения, поэтому я мог оценить их избыточность, посмотрев, насколько перекрываются наборы положительных и отрицательных классификаций. Теперь я расширил возможности для получения реальных значений (баллов), и я хотел бы снова проанализировать их избыточность, но я совершенно не знаю, как это сделать. Кто-нибудь может дать мне указатель или идею, как это сделать?

Я знаю, что этот вопрос очень расплывчатый, потому что я не очень хорошо разбираюсь в статистике. Итак, если у вас нет ответа для меня, возможно, у вас есть несколько вопросов, которые могут помочь мне лучше понять себя.

Редактировать: я в настоящее время просматриваю Википедию на эту тему, у меня есть ощущение, что мне нужен коэффициент корреляции, но я все еще не уверен, является ли это правильным подходом, и какой из многих доступных коэффициентов подходит.

Редактировать 2: В логическом случае я сначала создал для каждой функции набор образцов, для которых это было верно. Тогда корреляция между двумя признаками была размером пересечения этих наборов с размером объединения этих наборов. Если это значение равно 1, они полностью избыточны, потому что всегда одинаковы. Если это 0, они никогда не будут одинаковыми.

Бьёрн Поллекс
источник
было бы полезно, если бы вы предоставили пример того, как вы определяете избыточность в логическом случае, и какие результаты вы ожидаете в непрерывном случае
mpiktas
@mpiktas: Отредактируйте мой вопрос в ответ на ваш комментарий.
Бьорн Поллекс,

Ответы:

4

Это звучит как проблема выбора объектов, если это так, я думаю, что вы хотите вычислить взаимную информацию между всеми подмножествами объектов и результатами классификации. Подмножество с наивысшей взаимной информацией будет набором функций, которые содержат наибольшую «информацию» о результирующей классификации записи.

Если у вас есть только 3 функции, вы можете вычислить все возможные подмножества за разумное время, если ваш набор функций станет больше, вам придется приблизиться к этому (обычно с использованием жадного подхода: используйте функцию с самым высоким MI на каждом шаге ).

Ник
источник
2
(+1) для взаимной информации. Дополнительное замечание: а) Я предлагаю получение информации как особый случай взаимной информации. б) Автоматический выбор функции удалит не только лишние, но и все функции, которые негативно влияют на дискриминацию классов.
Штеффен
Спасибо! Это звучит очень многообещающе, я посмотрю на это.
Бьорн Поллекс