Вопросы с тегом «dimensionality-reduction»

Относится к методам сокращения большого количества переменных или измерений, охватываемых данными, до меньшего числа измерений, сохраняя при этом как можно больше информации о данных. Известные методы включают PCA, MDS, Isomap и т. Д. Два основных подкласса методов: извлечение признаков и выбор функций.

352
Отношения между СВД и СПС. Как использовать SVD для выполнения PCA?

Анализ главных компонент (PCA) обычно объясняется с помощью собственного разложения ковариационной матрицы. Тем не менее, он также может быть выполнен с помощью сингулярного разложения (SVD) матриц данных XИкс\mathbf X . Как это работает? Какова связь между этими двумя подходами? Какая связь между...

113
Как обратить вспять PCA и восстановить исходные переменные из нескольких основных компонентов?

Анализ основных компонентов (PCA) может использоваться для уменьшения размерности. После такого уменьшения размерности, как можно приблизительно восстановить исходные переменные / характеристики из небольшого числа главных компонентов? В качестве альтернативы, как можно удалить или удалить...

92
Объясните ребенку «Проклятие размерности»

Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно. Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда? РЕДАКТИРОВАТЬ: Теперь...

91
PCA и пропорции объяснены

В общем, что подразумевается под тем, чтобы сказать, что доля дисперсии в анализе, подобном PCA, объясняется первым основным компонентом? Может ли кто-то объяснить это интуитивно, но также дать точное математическое определение того, что означает «объяснение отклонений» в терминах анализа главных...

60
В чем разница между отбеливанием ZCA и отбеливанием PCA?

Меня смущает отбеливание ZCA и нормальное отбеливание (которое получается путем деления главных компонентов на квадратные корни собственных значений PCA). Насколько мне известно, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, где -...

58
Принципиальный способ свертывания категориальных переменных со многими уровнями?

Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен,...

38
Будет ли PCA работать для логических (двоичных) типов данных?

Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с...

37
Когда t-SNE вводит в заблуждение?

Цитата одного из авторов: t-распределенное стохастическое вложение соседей (t-SNE) - это ( выигрышный ) метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных. Это звучит довольно здорово, но об этом говорит автор. Еще одна цитата автора...

34
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?

В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель...

33
В чем заключается интуитивная причина ротации в Факторном анализе / PCA и как выбрать подходящую ротацию?

Мои вопросы Какова интуитивная причина ротации факторов в факторном анализе (или компонентов в PCA)? Насколько я понимаю, если переменные почти одинаково загружены в верхних компонентах (или факторах), то, очевидно, трудно дифференцировать компоненты. Таким образом, в этом случае можно использовать...

32
Как PCA поможет с анализом кластеризации k-средних?

Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я...

31
Уменьшение размерности (SVD или PCA) на большой разреженной матрице

/ edit: далее следите, теперь вы можете использовать irlba :: prcomp_irlba / edit: следите за своим собственным постом. irlbaтеперь имеет аргументы "center" и "scale", которые позволяют использовать его для вычисления основных компонентов, например: pc <- M %*% irlba(M, nv=5, nu=0,...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

28
Как сделать уменьшение размерности в R

У меня есть матрица, где a (i, j) говорит мне, сколько раз я просмотрел страницу j. Есть 27 тысяч человек и 95 тысяч страниц. Я хотел бы иметь несколько «измерений» или «аспектов» в пространстве страниц, которые соответствуют наборам страниц, которые часто просматриваются вместе. Моя конечная цель...

26
Почему Python scikait-learn LDA не работает правильно и как он вычисляет LDA через SVD?

Я использовал Линейный Дискриминантный Анализ (LDA) из scikit-learnбиблиотеки машинного обучения (Python) для уменьшения размерности, и мне было немного интересно узнать о результатах. Теперь мне интересно, что scikit-learnделает LDA , чтобы результаты выглядели иначе, чем, например, ручной подход...

25
Как главные главные компоненты могут сохранять предсказательную силу зависимой переменной (или даже приводить к лучшим прогнозам)?

Предположим , что я бегу регрессию . Почему, выбирая главные основных компонентов X , модель сохраняет свою предсказательную силу на Y ?k X YY∼ XY~ИксY \sim XККkИксИксXYYY Я понимаю, что с точки зрения уменьшения размерности / выбора признаков, если v1, v2, . , , vКv1,v2,,,,vКv_1, v_2, ... v_k...

24
Как понимать «нелинейный» как «нелинейное уменьшение размерности»?

Я пытаюсь понять различия между методами уменьшения линейной размерности (например, PCA) и нелинейными (например, Isomap). Я не совсем понимаю, что подразумевает (не) линейность в этом контексте. Я прочитал из Википедии, что Для сравнения, если PCA (алгоритм линейного уменьшения размерности)...

23
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?

Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась...

22
Почему существует только

В PCA, когда число измерений больше (или даже равно) количеству выборок N , почему у вас будет не более N - 1 ненулевых собственных векторов? Другими словами, ранг ковариационной матрицы среди измерений d ≥ N равен N - 1 .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Пример: ваши образцы - это...

22
Что такое «регрессия пониженного ранга»?

Я читал «Элементы статистического обучения» и не мог понять, что такое раздел 3.7 «Сжатие и выбор нескольких результатов». В нем говорится о RRR (регрессии пониженного ранга), и я могу только понять, что предпосылка заключается в обобщенной многомерной линейной модели, в которой коэффициенты...