Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация).
Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую данные с 25 функциями.
В качестве примера, наблюдая за изображением ниже, могу ли я предположить, что синие точки данных больше похожи на зеленые, особенно на самый большой кластер зеленых точек ?. Или, спрашивая по-другому, можно ли предположить, что синие точки больше похожи на зеленые в ближайшем кластере, чем на красные в другом кластере? (без учета зеленых точек в кластере красных пятен)
Наблюдая за другими примерами, такими как те, что представлены в sci-kit, изучают изучение Manifold, кажется правильным принять это, но я не уверен, является ли статистически верным.
РЕДАКТИРОВАТЬ
Я рассчитал расстояния от исходного набора данных вручную (среднее попарно евклидово расстояние), и визуализация фактически представляет собой пропорциональное пространственное расстояние относительно набора данных. Тем не менее, я хотел бы знать, приемлемо ли это ожидать от исходной математической формулировки t-sne, а не от простого совпадения.
Ответы:
Я бы представил t-SNE как умную вероятностную адаптацию локально-линейного вложения. В обоих случаях мы пытаемся спроецировать точки из большого пространства в маленькое. Эта проекция осуществляется путем оптимизации сохранения локальных расстояний (непосредственно с помощью LLE, предварительного получения вероятностного распределения и оптимизации KL-дивергенции с t-SNE). Тогда, если ваш вопрос, он держит глобальные расстояния, ответ - нет. Это будет зависеть от «формы» ваших данных (если распределение гладкое, расстояния должны быть как-то сохранены).
t-SNE на самом деле не очень хорошо работает на швейцарском рулоне (ваше трехмерное изображение "S"), и вы можете видеть, что в результате 2D самые средние желтые точки обычно ближе к красным, чем синие (они идеально центрированы в 3D-изображении).
Другим хорошим примером того, что делает t-SNE, является кластеризация рукописных цифр. Смотрите примеры по этой ссылке: https://lvdmaaten.github.io/tsne/
источник