Должны ли данные центрироваться + масштабироваться перед применением t-SNE?

18

Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения.

Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений?

Я использую реализацию Python sklearn.manifold.TSNE с евклидовой метрикой расстояния по умолчанию.

stmax
источник

Ответы:

18

Центрирование не должно иметь значения, поскольку алгоритм работает только на расстояниях между точками, однако изменение масштаба необходимо, если вы хотите, чтобы различные измерения обрабатывались с одинаковой важностью, поскольку на 2-норму будут сильнее влиять измерения с большой дисперсией.

jon_simon
источник