Ответы здесь утверждают, что размеры в t-SNE не имеют смысла , и что расстояния между точками не являются мерой сходства .
Однако можем ли мы что-нибудь сказать о точке, основанной на ее ближайших соседях в пространстве t-SNE? Этот ответ на вопрос, почему точки, которые в точности совпадают, не являются кластеризованными, предполагает, что соотношение расстояний между точками одинаково между представлениями более низкого и более высокого измерений.
Например, изображение ниже показывает t-SNE в одном из моих наборов данных (15 классов).
Могу ли я сказать, что cro 479
(вверху справа) является выбросом? Является ли fra 1353
(внизу слева) больше похожим cir 375
на другие изображения в fra
классе и т. Д.? Или это могут быть просто артефакты, например, они fra 1353
застряли на другой стороне нескольких кластеров и не могут пробиться к другому fra
классу?
Ответы:
Нет, не обязательно, что это так, однако, это запутанная цель T-SNE.
Прежде чем углубляться в суть ответа, давайте взглянем на некоторые основные определения, как математически, так и интуитивно.
Ближайшие соседи : рассмотрим метрическое пространство и набор векторов , учитывая новый вектор мы хотим найти точки такие, что, Интуитивно понятно, что это просто минимум расстояний, использующий подходящее определение нормы в .рd Икс1, . , , , XN∈ Rd x ∈ Rd || Икс1- х | | ≤ . , , ≤ | |ИксN- х | | рd
Теперь перейдем к вопросу, действительно ли ближайшие соседи имеют значение при применении уменьшения размерности. Обычно в своих ответах я намереваюсь что-то объяснить с помощью математики, кода и интуиции. Давайте сначала рассмотрим интуитивный аспект вещей. Если у вас есть точка, которая находится на расстоянии от другой точки, из нашего понимания алгоритма t-sne мы знаем, что это расстояние сохраняется при переходе в более высокие измерения. Предположим далее, что точка является ближайшим соседом в некотором измерении . По определению существует связь между расстоянием в иd Y Икс d d d+ к , Итак, у нас есть интуиция, которая заключается в том, что расстояние поддерживается в разных измерениях, или, по крайней мере, это то, к чему мы стремимся. Попробуем обосновать это какой-нибудь математикой.
В этом ответе я говорю о математике, связанной с t-sne, хотя и не подробно ( t-SNE: почему одинаковые значения данных визуально не близки? ). В данном случае математика в основном максимизирует вероятность того, что две точки останутся близкими в проецируемом пространстве, как они находятся в исходном пространстве, предполагая, что распределение точек экспоненциально. Итак, глядя на это уравнение . Обратите внимание, что вероятность зависит от расстояния между двумя точками, поэтому, чем дальше они находятся друг от друга, тем дальше они находятся друг от друга, когда проецируются на более низкие измерения. Обратите внимание, что если они находятся далеко друг от друга впJ |я= е х р ( - | | xJ- хя||22 σ2)ΣК ≠ яе х р ( - | | хJ- хя||22 σ2) рК , есть большая вероятность, что они не будут близки в прогнозируемом измерении. Итак, теперь у нас есть математическое обоснование того, почему точки «должны» оставаться близкими. Но, опять же, поскольку это экспоненциальное распределение, если эти точки находятся значительно далеко друг от друга, нет гарантии, что свойство ближайших соседей сохраняется, хотя это и является целью.
Теперь, наконец, хороший пример кодирования, который демонстрирует эту концепцию тоже.
Хотя это очень наивный пример и не отражает сложности, он работает экспериментально для некоторых простых примеров.
РЕДАКТИРОВАТЬ: Кроме того, добавив некоторые моменты в отношении самого вопроса, так что нет необходимости, что это так, может быть, однако, рационализация его с помощью математики докажет, что у вас нет конкретного результата (нет окончательного да или нет) ,
Я надеюсь, что это прояснило некоторые ваши проблемы с TSNE.
источник