Когда t-SNE вводит в заблуждение?

37

Цитата одного из авторов:

t-распределенное стохастическое вложение соседей (t-SNE) - это ( выигрышный ) метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных.

Это звучит довольно здорово, но об этом говорит автор.

Еще одна цитата автора (относительно вышеупомянутого конкурса):

Что вы отобрали у этого конкурса?
Всегда сначала визуализируйте свои данные, прежде чем начинать обучать предикторов этим данным! Часто визуализации, подобные тем, которые я сделал, дают представление о распределении данных, которые могут помочь вам определить, какие типы моделей прогнозирования следует использовать.

Информация должна 1 быть утрачивается - это сокращение размерности метод Afterall. Однако, поскольку это хороший метод для использования при визуализации, потерянная информация менее ценна, чем выделенная информация (/ сделана видимой / понятной благодаря уменьшению до 2 или 3 измерений).

Итак, мой вопрос:

  • Когда tSNE не подходит для работы?
  • Какие наборы данных не работают,
  • На какие вопросы он может ответить, но на самом деле не может?
  • Во второй цитате выше рекомендуется всегда визуализировать ваш набор данных, должна ли эта визуализация всегда выполняться с помощью tSNE?

Я ожидаю, что на этот вопрос лучше всего ответить в обратном порядке, т.е. ответить: когда tSNE - подходящий инструмент для работы?


Меня предупредили, чтобы я не полагался на tSNE, чтобы сказать мне, как легко классифицировать данные (разделить на классы - дискриминирующая модель). Примером вводящей в заблуждение информации было то, что для двух изображений, приведенных ниже, порождающая модель 2 была хуже для данных, визуализированных в первом / левом (точность 53,6%), чем эквивалентные для второго / правого (точность 67,2%).

первый второй


1 Я могу ошибаться, я могу сесть и попробовать на контрольном примере позже

2 заметим , что порождающая модель не то же самое , как discriminitive модели, но это пример , который я получил.

Линдон Уайт
источник
1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R
@ Лукас: Ах, конечно. (как я этого не понял)
Линдон Уайт
Какую генеративную модель вы пытаетесь?
Вэйчинг Лин
@ Wei-ChingLin Я не уверен, какая генеративная модель использовалась. Вероятно, какая-то сеть Deep Belief, Deep Boltzmann Manchine или Autoencoder. Не очень актуально суть вопроса
Линдон Уайт
2
Соответствующий: distill.pub/2016/misread-tsne
Линдон Уайт

Ответы:

13

T-Sne - это метод сокращения, который поддерживает мелкомасштабную структуру (то есть то, что особенно близко к чему) пространства, что делает его очень хорошим для визуализации разделимости данных. Это означает, что T-Sne особенно полезен для ранней визуализации, ориентированной на понимание степени разделяемости данных. Другие методы (например, PCA) оставляют данные в представлениях меньшего измерения, спроецированных друг на друга, по мере того, как исчезают измерения, что делает очень трудным сделать какое-либо четкое утверждение об отделимости в пространстве более высокого измерения.

Так, например, если вы получаете график T-Sne с большим количеством перекрывающихся данных, высока вероятность того, что ваш классификатор будет работать плохо, независимо от того, что вы делаете. И наоборот, если вы видите четко разделенные данные на графике T-Sne, то лежащие в основе, многомерные данные содержат достаточную изменчивость для построения хорошего классификатора.

Джон Йеттер
источник
3
Это очень хорошее объяснение того, что такое T-SNE, спасибо. Но я не вижу ответов на мои реальные вопросы (см. Точечные точки во вступительном посте.)
Линдон Уайт
5
Это не отвечает на вопрос вообще.
говорит амеба: восстанови монику
10

Из коробки tSNE имеет несколько гиперпараметров, основным из которых является недоумение. Помните, что с точки зрения эвристики недоумение определяет понятие сходства для tSNE, и универсальное недоумение используется для всех точек данных. Вы можете попытаться создать помеченный набор данных, в котором каждый кластер имеет совершенно разные сложности. Это может быть достигнуто, делая смесь гауссиан, с широким диапазоном различных отклонений. Я предполагаю, что это также вызовет проблемы в реализации tSNE в Barnes-Hut, которая опирается на сглаживание данных и использование только ближайших соседей. У tSNE также есть начальный период релаксации, который пытается пропустить кластеры друг через друга. В течение этого периода нет наказания или отталкивания. Так, например, если ваши данные выглядят как сплошная лапша (каждая лапша представляет определенный кластер), вы ' Нам будет трудно откалибровать первоначальный проход, и я сомневаюсь, что tSNE будет работать хорошо. В некотором смысле я думаю, что это намекает на то, что tSNE не будет работать хорошо, если ваши данные сплетены вместе и изначально находятся в низкоразмерном пространстве, скажем, 5.

t

k

Алекс Р.
источник