В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для проверки моих результатов?
Я пытаюсь понять, как бы вы применили перекрестную проверку к методу кластеризации, такому как k-means, поскольку новые поступающие данные изменят центроид и даже распределения кластеризации в существующем.
Что касается неконтролируемой проверки кластеризации, вам может потребоваться количественная оценка стабильности ваших алгоритмов с другим номером кластера для повторно выбранных данных.
Основная идея устойчивости кластеризации может быть показана на рисунке ниже:
Вы можете заметить, что с числом кластеризации 2 или 5, есть как минимум два разных результата кластеризации (см. Разбивающие штриховые линии на рисунках), но с числом кластеризации 4 результат относительно стабилен.
Стабильность кластеризации: обзор Ульрике фон Люксембург может быть полезным.
источник
Для простоты объяснения и ясности я бы загрузил кластеризацию.
В целом, вы можете использовать такие передискретизированные кластеры для измерения стабильности вашего решения: оно практически не меняется или полностью меняется?
Даже если у вас нет правды, вы можете, конечно, сравнить кластеризацию, которая возникает в результате разных запусков одного и того же метода (повторной выборки) или результатов разных алгоритмов кластеризации, например, путем суммирования:
поскольку кластеры являются номинальными, их порядок может меняться произвольно. Но это означает, что вам разрешено изменять порядок, чтобы кластеры соответствовали. Затем диагональные * элементы подсчитывают случаи, которые назначены одному кластеру, и недиагональные элементы показывают, как изменились назначения:
Я бы сказал, что повторная выборка хороша, чтобы определить, насколько стабильна ваша кластеризация в каждом методе. Без этого не имеет большого смысла сравнивать результаты с другими методами.
Вы не смешиваете перекрестную проверку k-кратности и кластеризацию k-средних, не так ли?
источник
Там в последнее время из публикации по методе би-перекрестной проверки для определения количества кластеров здесь .
а кто - то пытается реализовать с научно-комплект узнать здесь .
источник