Как определить параметры для t-SNE для уменьшения размеров?

11

Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов.

Однако, для t-SNE, я не знаю, сколько итераций, или значения альфа, или значения проницаемости, я должен сохранить, чтобы учиться лучше.

Это гиперпараметры или они могут быть определены некоторыми атрибутами?

pca dimensionality-reduction word2vec word-embeddings tsne silent_dev
источник

12

Я настоятельно рекомендую статью Как эффективно использовать t-SNE . Он имеет отличные анимационные сюжеты процесса подгонки tsne и был первым источником, который фактически дал мне интуитивное понимание того, что делает tsne.

На высоком уровне недоумение является параметром, который имеет значение. Это хорошая идея, чтобы попробовать недоумение 5, 30 и 50, и посмотреть на результаты.

А если серьезно, прочитайте, как эффективно использовать t-SNE. Это сделает ваше использование TSNE более эффективным.

Для пакетов используйте Rtsne в R или sklearn.manifold.TSNE в Python

Zach
источник

Для больших наборов данных и использования графического процессора в ваших вычислениях. Проверьте библиотеку Rapids от nVidia. [Rapids.AI] (rapids.ai)

Аакаш Гупта

2

Я процитирую часто задаваемые вопросы от вебсайта t-SNE . Первый за недоумение:

Как я должен установить недоумение в t-SNE?

Производительность t-SNE довольно устойчива при различных настройках сложности. Наиболее подходящее значение зависит от плотности ваших данных. Грубо говоря, можно сказать, что больший / более плотный набор данных требует большего недоумения. Типичные значения недоумения колеблются от 5 до 50.

Для всех других параметров я хотел бы прочитать это:

Как я могу оценить качество визуализаций, созданных t-SNE?

Желательно просто посмотреть на них! Обратите внимание, что t-SNE сохраняет не расстояния, а вероятности, поэтому измерение некоторой ошибки между евклидовыми расстояниями в высоком и низком D бесполезно. Однако, если вы используете те же данные и недоумение, вы можете сравнить расхождения Kullback-Leibler, о которых сообщает t-SNE. Совершенно нормально запускать t-SNE десять раз и выбирать решение с самой низкой дивергенцией KL.

Другими словами это означает: посмотрите на график, если визуализация хорошая, не меняйте параметры. Вы также можете выбрать прогон с наименьшей дивергенцией KL для каждого фиксированного недоумения.

Даниэль Фальбел
источник

Как определить параметры для t-SNE для уменьшения размеров?

Ответы: