У меня есть три функции, которые я использую для решения проблемы классификации. Первоначально эти функции создавали логические значения, поэтому я мог оценить их избыточность, посмотрев, насколько перекрываются наборы положительных и отрицательных классификаций. Теперь я расширил возможности для получения реальных значений (баллов), и я хотел бы снова проанализировать их избыточность, но я совершенно не знаю, как это сделать. Кто-нибудь может дать мне указатель или идею, как это сделать?
Я знаю, что этот вопрос очень расплывчатый, потому что я не очень хорошо разбираюсь в статистике. Итак, если у вас нет ответа для меня, возможно, у вас есть несколько вопросов, которые могут помочь мне лучше понять себя.
Редактировать: я в настоящее время просматриваю Википедию на эту тему, у меня есть ощущение, что мне нужен коэффициент корреляции, но я все еще не уверен, является ли это правильным подходом, и какой из многих доступных коэффициентов подходит.
Редактировать 2: В логическом случае я сначала создал для каждой функции набор образцов, для которых это было верно. Тогда корреляция между двумя признаками была размером пересечения этих наборов с размером объединения этих наборов. Если это значение равно 1, они полностью избыточны, потому что всегда одинаковы. Если это 0, они никогда не будут одинаковыми.
источник
Ответы:
Это звучит как проблема выбора объектов, если это так, я думаю, что вы хотите вычислить взаимную информацию между всеми подмножествами объектов и результатами классификации. Подмножество с наивысшей взаимной информацией будет набором функций, которые содержат наибольшую «информацию» о результирующей классификации записи.
Если у вас есть только 3 функции, вы можете вычислить все возможные подмножества за разумное время, если ваш набор функций станет больше, вам придется приблизиться к этому (обычно с использованием жадного подхода: используйте функцию с самым высоким MI на каждом шаге ).
источник