Я пытаюсь оценить производительность кластеризации. Я читал документацию skiscit-learn по метрикам . Я не понимаю разницы между ARI и AMI. Мне кажется, что они делают одно и то же двумя разными способами.
Ссылаясь на документацию:
Учитывая знание базовых назначений класса истинности label_true и наших алгоритмов кластеризации для одних и тех же выборок label_pred, скорректированный индекс Rand является функцией, которая измеряет сходство двух назначений, игнорируя перестановки и с возможностью нормализации.
против
Учитывая знание базовых назначений класса истинности label_true и наших алгоритмов кластеризации для одних и тех же выборок label_pred, Взаимная информация - это функция, которая измеряет согласование двух назначений, игнорируя перестановки ... AMI был предложен недавно и нормализован по отношению к шанс.
Должен ли я использовать их оба в моей оценке кластеризации или это будет избыточным?
источник
Ответы:
Это два из дюжины, которые все пытаются сравнить кластеры.
Но они не эквивалентны. Они используют разные теории.
Иногда ARI может предпочесть один результат, а AMI - другой. Но часто они соглашаются в предпочтении (не в цифрах).
источник
Эмпирическое правило:
Я работал над этой темой. Ссылка: поправка на меры сравнения вероятности кластеризации
источник