Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации.
У меня есть несколько примеров пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны быть в том же кластере). Каждый объект имеет ряд атрибутов: если вы хотите, мы можем думать о каждом объекте в качестве - мерного вектора признаков, где каждая функция представляет собой неотрицательное целое число. Существуют ли методы использования таких примеров похожих / разнородных объектов для оценки из них оптимальных весов признаков для измерения различий?
Если это поможет, в моем приложении, вероятно, было бы разумно сосредоточиться на изучении меры различия, которая является взвешенной нормой L2:
где веса неизвестны и должны быть изучены. (Или некоторая мера подобия взвешенного косинуса также может быть разумной.) Существуют ли хорошие алгоритмы для изучения весов для такой меры, приведенные в примерах? Или есть какие-то другие методы для изучения меры сходства / меры различия, которые я должен рассмотреть?
Количество измерений, к сожалению, очень велико (тысячи или выше; оно основано на чертах слов). Тем не менее, у меня есть много десятков тысяч примеров. Затем у меня есть сотни тысяч объектов, которые я хочу кластеризовать, поэтому важно обобщить примеры, чтобы получить хороший показатель различий.
Я понимаю, что это попадает в рубрику кластеризации под наблюдением, и это звучит так, как будто это может быть «адаптация сходства», но я не смог найти четкого описания алгоритмов, которые можно использовать для этой цели.
Ответы:
Это большая проблема в некоторых областях машинного обучения. Я не настолько знаком с этим, как хотелось бы, но я думаю, что это должно помочь вам начать.
Сокращение размерности путем изучения инвариантного отображения (DrLIM), кажется, очень хорошо работает на некоторых наборах данных.
Анализ компонентов соседства - это очень хороший линейный алгоритм, и были также разработаны нелинейные версии.
Существует целая литература, которая занимается этим вопросом с точки зрения «изучения ядра». Я не знаю много об этом, но эта статья очень цитируется.
источник
Другими словами, вы спрашиваете о предварительной обработке и масштабировании данных. Это слишком широкий вопрос, чтобы на него можно было ответить в одном вопросе. Искать:
Существует огромное количество литературы и даже конференций, посвященных этому. Некоторые методы для начала:
источник