Вопросы с тегом «tsne»

T-распределенное стохастическое вложение соседей (t-SNE) - это алгоритм нелинейного уменьшения размерности, представленный ван дер Маатеном и Хинтоном в 2008 году.

78
Кластеризация на выходе t-SNE

У меня есть приложение, в котором было бы удобно кластеризовать зашумленный набор данных, прежде чем искать эффекты подгрупп в кластерах. Сначала я посмотрел на PCA, но для достижения 90% изменчивости требуется ~ 30 компонентов, поэтому кластеризация на нескольких компьютерах приведет к выбросу...

39
Почему мы используем расхождение Кульбака-Лейблера, а не кросс-энтропию в целевой функции t-SNE?

На мой взгляд, расхождение KL от распределения выборки до истинного распределения - это просто разница между кросс-энтропией и энтропией. Почему мы используем перекрестную энтропию как функцию стоимости во многих моделях машинного обучения, но используем расхождение Кульбака-Лейблера в t-sne? Есть...

39
Есть ли случаи, когда PCA более подходит, чем t-SNE?

Я хочу увидеть, как 7 показателей поведения по исправлению текста (время, потраченное на исправление текста, количество нажатий клавиш и т. Д.) Связаны друг с другом. Меры взаимосвязаны. Я запустил PCA, чтобы увидеть, как меры проецируются на ПК1 и ПК2, что позволяет избежать частичного выполнения...

37
Когда t-SNE вводит в заблуждение?

Цитата одного из авторов: t-распределенное стохастическое вложение соседей (t-SNE) - это ( выигрышный ) метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных. Это звучит довольно здорово, но об этом говорит автор. Еще одна цитата автора...

34
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?

В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель...

27
Что не так с t-SNE против PCA для уменьшения размеров с использованием R?

У меня есть матрица из 336x256 чисел с плавающей запятой (336 бактериальных геномов (столбцы) x 256 нормализованных частот тетрануклеотидов (ряды), например, каждый столбец добавляет до 1). Я получаю хорошие результаты, когда выполняю анализ с использованием принципного анализа компонентов. Сначала...

23
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?

Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась...

21
T-SNE против MDS

В последнее время я читал некоторые вопросы о t-SNE ( t-распределенное стохастическое вложение соседей ), а также посетил некоторые вопросы о MDS ( многомерном масштабировании ). Они часто используются аналогично, поэтому было бы неплохо задать этот вопрос, поскольку здесь есть много вопросов по...

19
Существуют ли версии t-SNE для потоковой передачи данных?

Мое понимание t-SNE и приближения Барнса-Хата заключается в том, что все точки данных необходимы для того, чтобы все силовые взаимодействия могли быть рассчитаны одновременно, и каждая точка могла быть скорректирована на 2-й (или более низкой размерности) карте. Существуют ли версии t-sne, которые...

18
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?

Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python...

13
Выбор гиперпараметров с использованием T-SNE для классификации

В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание...

12
Какая польза от t-SNE, кроме визуализации данных?

В каких ситуациях мы должны использовать t-SNE (кроме визуализации данных)? T-SNE используется для уменьшения размерности. Ответ на этот вопрос предполагает, что t-SNE следует использовать только для визуализации, и что мы не должны использовать его для кластеризации. Тогда какая польза от...

12
Какой алгоритм классификации следует использовать, увидев, что t-SNE хорошо разделяет классы?

Давайте предположим, что у нас есть проблема с классификацией, и сначала мы хотим получить представление о данных, и мы делаем t-SNE. Результат t-SNE очень хорошо разделяет классы. Это подразумевает, что можно построить классификационную модель, которая также будет очень хорошо разделять классы...

12
Каково значение осей в t-SNE?

В настоящее время я пытаюсь обернуть голову вокруг математики t-SNE . К сожалению, есть еще один вопрос, на который я не могу ответить удовлетворительно: каково реальное значение осей в графике t-SNE? Если бы я выступил с докладом на эту тему или включил бы его в любую публикацию: как бы я...

11
Как определить параметры для t-SNE для уменьшения размеров?

Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов. Однако, для t-SNE, я не знаю, сколько...

10
Что подразумевается под PCA, сохраняя только большие попарные расстояния?

В настоящее время я читаю технику визуализации t-SNE, и было упомянуто, что одним из недостатков использования анализа главных компонентов (PCA) для визуализации многомерных данных является то, что он сохраняет только большие попарные расстояния между точками. Значимые точки, которые находятся...

10
t-SNE со смешанными непрерывными и двоичными переменными

В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных:...

9
Масштабируемое уменьшение размера

Учитывая постоянное число функций, t-SNE Барнса-Хата имеет сложность , случайные проекции и PCA имеют сложность что делает их «доступными» для очень больших наборов данных.O ( n logн )О(Nжурнал⁡N)O(n\log n)O ( n )О(N)O(n) С другой стороны, методы, основанные на многомерном масштабировании, имеют...

9
PCA слишком медленный, когда оба n, p большие: альтернативы?

Настройка проблемы У меня есть данные (изображения) высокой размерности (4096), которые я пытаюсь визуализировать в 2D. С этой целью я использую t-sne способом, подобным следующему примеру кода Karpathy . Документация Scikit-Learn рекомендует использовать PCA, чтобы сначала уменьшить размерность...