Можно ли считать более близкие точки более похожими в визуализации T-SNE?

14

Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация).

Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую данные с 25 функциями.

В качестве примера, наблюдая за изображением ниже, могу ли я предположить, что синие точки данных больше похожи на зеленые, особенно на самый большой кластер зеленых точек ?. Или, спрашивая по-другому, можно ли предположить, что синие точки больше похожи на зеленые в ближайшем кластере, чем на красные в другом кластере? (без учета зеленых точек в кластере красных пятен)

введите описание изображения здесь

Наблюдая за другими примерами, такими как те, что представлены в sci-kit, изучают изучение Manifold, кажется правильным принять это, но я не уверен, является ли статистически верным.

введите описание изображения здесь

РЕДАКТИРОВАТЬ

Я рассчитал расстояния от исходного набора данных вручную (среднее попарно евклидово расстояние), и визуализация фактически представляет собой пропорциональное пространственное расстояние относительно набора данных. Тем не менее, я хотел бы знать, приемлемо ли это ожидать от исходной математической формулировки t-sne, а не от простого совпадения.

Javierfdr
источник
1
Синие точки - самые близкие к соответствующим соседним зеленым точкам, вот как было выполнено вложение. Грубо говоря, сходство (или расстояние) должно быть сохранено. Переход от 25 измерений только к 2 очень вероятно приведет к потере информации, но 2D-представление является наиболее близким к отображению на экране.
Владислав Довгальец

Ответы:

5

Я бы представил t-SNE как умную вероятностную адаптацию локально-линейного вложения. В обоих случаях мы пытаемся спроецировать точки из большого пространства в маленькое. Эта проекция осуществляется путем оптимизации сохранения локальных расстояний (непосредственно с помощью LLE, предварительного получения вероятностного распределения и оптимизации KL-дивергенции с t-SNE). Тогда, если ваш вопрос, он держит глобальные расстояния, ответ - нет. Это будет зависеть от «формы» ваших данных (если распределение гладкое, расстояния должны быть как-то сохранены).

t-SNE на самом деле не очень хорошо работает на швейцарском рулоне (ваше трехмерное изображение "S"), и вы можете видеть, что в результате 2D самые средние желтые точки обычно ближе к красным, чем синие (они идеально центрированы в 3D-изображении).

Другим хорошим примером того, что делает t-SNE, является кластеризация рукописных цифр. Смотрите примеры по этой ссылке: https://lvdmaaten.github.io/tsne/

Робин
источник
2
Я имею в виду, что вы не можете просто использовать расстояние в нижнем пространстве в качестве критерия сходства. t-SNE сохранит глобальную структуру, такую ​​как кластеры, но не обязательно сохранит расстояния. Это будет зависеть от формы данных большого размера и недоумения, которое вы используете.
Робин
1
Да я вижу. Спасибо за разъяснение. Да, я согласен, что расстояния в нижнем пространстве не будут точными. Теперь, так как t-sne является практичным для визуализации, могу ли я концептуально использовать расстояния на графике нижнего измерения? Например, на моем графике я могу с уверенностью сказать, что синие точки ближе или больше похожи на зеленые, чем на красные, учитывая очевидное разделение трех групп в 2-мерном пространстве. Или это тоже было бы сложно сказать?
Хавьерфдр
1
Это довольно сложно сказать. Точки в низкоразмерном пространстве инициализируются гауссовым распределением с центром в начале координат. Затем их итеративно заменяют, оптимизируя KL-дивергенцию. Поэтому я бы сказал, что в вашем случае синие точки больше похожи на зеленый кластер, но теперь есть способ оценить, насколько они ближе, чем к красному кластеру. т-ОПО.
Робин
1
В совокупности t-SNE делает акцент на (1) моделировании разнородных точек данных с помощью больших попарных расстояний и (2) моделировании сходных точек данных с помощью малых попарных расстояний. В частности, t-SNE вводит дальнодействующие силы в низкоразмерной карте, которая может сблизить две (группы) одинаковых точек, которые на ранних этапах оптимизации были разделены.
Робин
1
Очень хорошее объяснение. Большое спасибо за ваши усилия. Я думаю, что вы разные комментарии собрали полный ответ.
Хавьерфдр