Я хочу увидеть, как 7 показателей поведения по исправлению текста (время, потраченное на исправление текста, количество нажатий клавиш и т. Д.) Связаны друг с другом. Меры взаимосвязаны. Я запустил PCA, чтобы увидеть, как меры проецируются на ПК1 и ПК2, что позволяет избежать частичного выполнения двухсторонних корреляционных тестов между измерениями.
Меня спросили, почему не используют t-SNE, поскольку взаимосвязь между некоторыми показателями может быть нелинейной.
Я могу видеть, как учет нелинейности мог бы улучшить это, но мне интересно, есть ли веская причина использовать PCA в этом случае, а не t-SNE? Я не заинтересован в кластеризации текстов в соответствии с их отношением к мерам, а скорее в связи между самими мерами.
(Я полагаю, что EFA мог бы также лучше / другой подход, но это другое обсуждение.) По сравнению с другими методами, здесь мало сообщений о t-SNE, поэтому вопрос стоит задать.
Ответы:
Стохастичность конечного решения . PCA является детерминированным; сне нет. Один получает хорошую визуализацию, а затем ее коллега получает другую визуализацию, а затем они становятся артистичными, что выглядит лучше, и если разница в в расхождении имеет смысл ... В PCA правильный ответ на поставленный вопрос гарантирован. SNE может иметь несколько минимумов, которые могут привести к различным решениям. Это требует многократных прогонов, а также вызывает вопросы о воспроизводимости результатов.0,03 % K L ( P | | Q ) tt 0.03% KL(P||Q) t
Интерпретируемость отображения . Это относится к вышеприведенному пункту, но давайте предположим, что команда согласилась на конкретный случайный старт / пробег. Теперь возникает вопрос: что это показывает? -SNE пытается правильно отобразить только локальные / соседние объекты, поэтому наши выводы из этого вложения должны быть очень осторожными; глобальные тренды не представлены точно (и это может быть очень полезно для визуализации). С другой стороны, PCA - это просто диагональное вращение нашей исходной ковариационной матрицы, а собственные векторы представляют новую осевую систему в пространстве, охватываемом нашими исходными данными. Мы можем напрямую объяснить, что делает конкретный PCA.t
Применение к новым / невидимым данным . -SNE не изучает функцию из исходного пространства в новое (нижнее) измерение, и это проблема. В этом отношении SNE является непараметрическим алгоритмом обучения, поэтому приближение с помощью параметрического алгоритма является некорректной задачей. Встраивание изучается путем непосредственного перемещения данных через низкоразмерное пространство. Это означает, что нельзя получить собственный вектор или подобную конструкцию для использования в новых данных. Напротив, используя PCA, собственные векторы предлагают новую систему осей, которую можно напрямую использовать для проецирования новых данных. [Видимо , можно было бы попробовать обучение глубоко-сеть , чтобы узнатьт тt t t -SNE картирование (вы можете услышать доктора ван дер Маатена на ~ 46 'этого видео, предлагающего что-то в этом роде), но, очевидно, простого решения не существует.]
Неполные данные . Собственно -SNE не имеет дело с неполными данными. Справедливости ради, PCA также не работает с ними, но существуют многочисленные расширения PCA для неполных данных (например, вероятностный PCA ), которые являются почти стандартными процедурами моделирования. -SNE в настоящее время не может обрабатывать неполные данные (за исключением, очевидно, обучения сначала вероятностного PCA и передачи результатов ПК в -SNE в качестве входных данных).т тt t t
не (слишком) маленький корпус.k -SNE решает проблему, известную как проблема скученности, эффективно, что несколько похожих точек в более высоком измерении коллапсируют друг над другом в более низких измерениях (подробнее здесь ). Теперь, когда вы увеличиваете размеры, проблема переполнения становится менее серьезной, т.е. проблема, которую вы пытаетесь решить с помощью -SNE, ослабевает. Вы можете обойти эту проблему, но это не тривиально. Поэтому, если вам нужен мерный вектор в качестве приведенного множества, а не совсем мало, оптимальность производственного решения находится под вопросом. PCA с другой стороны , предложение всегдат к к кt t k k k объяснена лучшая линейная комбинация с точки зрения дисперсии. (Спасибо @amoeba за то, что заметил, что напутал, когда впервые попытался обрисовать этот момент.)
Я не упоминаю вопросы о вычислительных требованиях (например, скорость или объем памяти), а также вопросы выбора соответствующих гиперпараметров (например, растерянность). Я думаю, что это внутренние проблемы методологии SNE, которые не имеют отношения к сравнению с другим алгоритмом.t
Подводя итог, можно сказать , что SNE - это замечательно, но, поскольку все алгоритмы имеют свои ограничения, когда речь заходит о его применимости. Я использую -SNE почти в любом новом наборе данных, который я получаю в качестве пояснительного инструмента анализа данных. Хотя я думаю, что он имеет определенные ограничения, которые не делают его почти таким же применимым, как PCA. Позвольте мне подчеркнуть, что PCA также не идеален; например, визуализация на основе PCA часто уступает визуализации SNE.т тt t t
источник
https://stats.stackexchange.com/a/249520/7828
отличный общий ответ.
Я хотел бы сосредоточиться немного больше на вашей проблеме. Вы, очевидно, хотите увидеть, как ваши выборки соотносятся с вашими 7 входными переменными. Это то, что t-SNE не делает. Идея SNE и t-SNE состоит в том, чтобы расположить соседей близко друг к другу, (почти) полностью игнорируя глобальную структуру.
Это отлично подходит для визуализации, потому что похожие элементы могут быть нанесены рядом друг с другом (а не друг на друга, см. Скученность).
Это не хорошо для дальнейшего анализа. Глобальная структура потеряна, некоторые объекты могут быть заблокированы от перемещения к своим соседям, и количественное разделение между различными группами не сохраняется. Именно поэтому, например, кластеризация на проекции обычно не очень хорошо работает.
Спс совсем наоборот. Он пытается сохранить глобальные свойства (собственные векторы с высокой дисперсией), в то же время он может потерять отклонения с низкой дисперсией между соседями.
источник
Чтобы дать один примененный угол, PCA и t-SNE не являются взаимоисключающими. В некоторых областях биологии мы имеем дело с многомерными данными (например, scRNA-seq - тысячи измерений), где t-SNE просто не масштабируется. Поэтому сначала мы используем PCA, чтобы уменьшить размерность данных, а затем, взяв верхние принципиальные компоненты, вычисляем граф окрестностей, а затем встраиваем этот график в 2-х измерениях, используя t-SNE (или аналогичный метод нелинейного уменьшения размерности. как UMAP) для визуализации данных.
источник