Значимы ли размеры t-sne?

18

Есть ли смысл для размеров вложения t-sne? Как и в случае с PCA, у нас есть смысл линейно преобразованных максимизаций дисперсии, но для t-sne существует ли интуиция, кроме пространства, которое мы определяем для отображения и минимизации KL-расстояния?

Nitro
источник
1
Не уверен, что это действительно так, как вы просите, но я считаю, что размеры t-sne действительно зависят только от разделяемости данных. Размеры могут измениться, учитывая тот же набор данных, потому что это нелинейное преобразование. Таким образом, измерения могут действительно интерпретироваться только в контексте данного экземпляра. Дайте мне знать, если я ошибаюсь, это интересный вопрос.
Гоббс
Может быть, это просто скучный старый №3?
Нитро

Ответы:

17

Размеры низкоразмерного пространства не имеют смысла. Обратите внимание, что функция потерь t-SNE основана исключительно на расстояниях между точками ( и y j ) и распределениях вероятностей по этим расстояниям ( p i j и q i j ):YяYJпяJQяJ

δСδYязнак равно4ΣJ(пяJ-QяJ)(Yя-YJ)(1+||Yя-YJ||2)-1

Таким образом, нет проекции из всего многомерного пространства в низкоразмерное пространство, t-SNE находит отображение только из определенного набора многомерных точек в конкретный набор низкоразмерных точек. Поскольку нет функции от одного пространства к другому, также нет никакого внутреннего значения осей.

Вещи, которые вы можете себе представить, чтобы проиллюстрировать это:

  • Вращение или перемещение многомерного или низкоразмерного пространства не влияет на расстояния между точками. Следовательно, t-SNE не заботится о вращении или перемещении в обоих пространствах. Таким образом, не существует абсолютной интерпретации осей.
  • Распределение t-Student имеет толстые хвосты. Это заставляет низкоразмерное представление быть инвариантным к изменениям в точках, которые находятся далеко в многомерном пространстве. Это также приводит к тому, что точки, находящиеся далеко в многомерном пространстве, могут быть достаточно далеко, далеко или действительно далеко в низкоразмерном пространстве. В этом смысле он растягивает определенные части низкоразмерных осей (в любом произвольном направлении).

При этом t-SNE - это, прежде всего, метод визуализации, и его эффективность уменьшения размеров для других целей не очевидна (вероятно, не подходит для кластеризации, выделения признаков или выбора признаков).

Также: бумага .

Pieter
источник