В 1999 году Beyer et al. спросил, когда смысл "Ближайший сосед"?
Существуют ли лучшие способы анализа и визуализации влияния плоскостности расстояний на поиск NN с 1999 года?
Предоставляет ли [данный] набор данных значимые ответы на проблему 1-NN? Проблема 10-НН? Проблема 100-НН?
Как бы вы, эксперты, подошли к этому вопросу сегодня?
Изменения: понедельник, 24 января:
Как насчет «расстояния белого» как более короткого названия для «плоскостности расстояния с увеличивающимся измерением»?
Простой способ взглянуть на «дистанционное исчезновение» - это запустить 2-NN и построить расстояния до ближайшего соседа и второго ближайшего соседа. График ниже показывает dist 1 и dist 2 для диапазона кластеров и размеров по Монте-Карло. Этот пример показывает довольно хороший контраст расстояния для масштабированной абсолютной разности | dist 2 - dist 1 |. (Относительные различия | dist 2 / dist 1 | → 1 при измерении → ∞, поэтому становятся бесполезными.)
То, следует ли использовать абсолютные или относительные ошибки в данном контексте, зависит, конечно, от «реального» присутствующего шума: трудно.
Предложение: всегда бегать 2-нн; 2 соседа полезны, когда они рядом, и полезны, когда нет.
Ответы:
У меня нет полного ответа на этот вопрос, но я могу дать частичный ответ на некоторые аналитические аспекты. Предупреждение: я работал над другими проблемами, начиная с первой статьи ниже, поэтому очень вероятно, что есть и другие хорошие вещи, о которых я не знаю.
Во-первых, я думаю, что стоит отметить, что, несмотря на название их статьи «Когда имеет значение« ближайший сосед »», Бейер и др. Фактически ответили на другой вопрос, а именно, когда NN не имеет смысла. Мы доказали обратное к их теореме при некоторых дополнительных мягких предположениях о размере выборки в статье «Когда ближайший сосед» имеет смысл: обратная теорема и следствия. Журнал Сложности, 25 (4), август 2009, с. 385-397.и показал, что существуют ситуации, когда (в теории) концентрация расстояний не возникает (мы приводим примеры, но, по сути, число нешумных элементов должно расти с размерностью, поэтому, конечно, они редко возникают на практике). Ссылки 1 и 7, цитируемые в нашей статье, дают некоторые примеры способов, которыми концентрация расстояния может быть уменьшена на практике.
В статье моего руководителя, Ата Кабана, рассматривается вопрос о том, сохраняются ли эти проблемы концентрации на расстоянии, несмотря на применение методов уменьшения размерности, в разделе «Сведения о концентрации на расстоянии некоторых методов сокращения данных». Распознавание образов. Том 44, выпуск 2, февраль 2011 г., с.265-277. , Там тоже есть хорошая дискуссия.
источник
С таким же успехом вас может заинтересовать анализ компонентов окрестностей, выполненный Goldberger et al.
Здесь, линейное преобразование изучается, чтобы максимизировать ожидаемые правильно классифицированные точки посредством стохастического выбора ближайшей окрестности.
В качестве побочного эффекта (ожидаемое) число соседей определяется из данных.
источник