Вопросы с тегом «dimensionality-reduction»

21
Спс, когда размерность больше количества образцов

Я столкнулся со сценарием, где у меня есть 10 сигналов на человека на 10 человек (таким образом, 100 выборок), содержащих 14000 точек данных (измерений), которые мне нужно передать в классификатор. Я хотел бы уменьшить размерность этих данных, и PCA, кажется, является способом сделать это. Тем не...

21
Функциональный анализ главных компонентов (FPCA): что это такое?

Функциональный анализ главных компонентов (FPCA) - это то, на что я наткнулся и никогда не мог понять. О чем это все? См. «Обзор функционального анализа главных компонентов», 2011 г. , и я цитирую: PCA сталкивается с серьезными трудностями при анализе функциональных данных из-за «проклятия...

21
T-SNE против MDS

В последнее время я читал некоторые вопросы о t-SNE ( t-распределенное стохастическое вложение соседей ), а также посетил некоторые вопросы о MDS ( многомерном масштабировании ). Они часто используются аналогично, поэтому было бы неплохо задать этот вопрос, поскольку здесь есть много вопросов по...

21
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?

Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это,...

20
Как LDA, метод классификации, также служит методом уменьшения размерности, как PCA

В этой статье автор связывает линейный дискриминантный анализ (LDA) с анализом главных компонентов (PCA). С моими ограниченными знаниями я не могу понять, как LDA может быть чем-то похожим на PCA. Я всегда думал, что LDA - это форма алгоритма классификации, похожая на логистическую регрессию. Я...

19
Существуют ли версии t-SNE для потоковой передачи данных?

Мое понимание t-SNE и приближения Барнса-Хата заключается в том, что все точки данных необходимы для того, чтобы все силовые взаимодействия могли быть рассчитаны одновременно, и каждая точка могла быть скорректирована на 2-й (или более низкой размерности) карте. Существуют ли версии t-sne, которые...

18
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?

Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python...

17
Существует ли «проклятие размерности» в реальных данных?

Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или...

17
«Нормализующие» переменные для SVD / PCA

Предположим, у нас есть NNN измеримых переменных (a1,a2,…,aN)(a1,a2,...,aN)(a_1, a_2, \ldots, a_N) , мы выполняем ряд измерений M>NM>NM > N , а затем хотим выполнить разложение по сингулярным значениям результатов, чтобы найти оси наибольшей дисперсии для MMM точек в NNN мерном пространстве....

16
Когда мы объединяем уменьшение размерности с кластеризацией?

Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический...

16
Какова связь между частичными наименьшими квадратами, регрессией пониженного ранга и регрессией главных компонент?

Являются ли регрессия с пониженным рангом и регрессия главных компонентов просто частными случаями частичных наименьших квадратов? В этом руководстве (Страница 6, «Сравнение целей») утверждается, что когда мы делаем частичные наименьшие квадраты без проецирования X или Y (то есть «не частичные»),...

14
Методы объединения / сокращения категорий в порядковых или номинальных данных?

Я изо всех сил пытаюсь найти метод для уменьшения количества категорий в номинальных или порядковых данных. Например, предположим, что я хочу построить регрессионную модель на наборе данных, который имеет ряд номинальных и порядковых факторов. Несмотря на то, что у меня нет проблем с этим шагом, я...

14
Какие переменные объясняют, какие компоненты PCA, и наоборот?

Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...

13
Контролируемое уменьшение размерности

У меня есть набор данных, состоящий из 15K помеченных образцов (из 10 групп). Я хочу применить уменьшение размерности к двум измерениям, которые бы учитывали знание меток. Когда я использую «стандартные» неконтролируемые методы уменьшения размерности, такие как PCA, график рассеяния, кажется, не...

13
Выбор гиперпараметров с использованием T-SNE для классификации

В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание...

13
Объясните шаги алгоритма LLE (локальное линейное вложение)?

Я понимаю, что основной принцип, лежащий в основе алгоритма LLE, состоит из трех этапов. Нахождение окрестности каждой точки данных по некоторой метрике, такой как k-nn. Найти веса для каждого соседа, которые обозначают влияние, которое сосед оказывает на точку данных. Построить низкоразмерное...

13
В чем разница между выбором объектов и уменьшением размерности?

Я знаю, что как выбор элементов, так и уменьшение размерности направлены на уменьшение количества элементов в исходном наборе элементов. Какая разница между ними, если мы делаем одно и то же в...

13
Алгебра LDA. Различающая способность Фишера переменной и линейный дискриминантный анализ

По-видимому, Анализ Фишера направлен на одновременное максимальное разделение между классами, одновременно сводя к минимуму дисперсию внутри класса. Следовательно, полезная мера степени различения переменной определяется диагональной величиной: Bii/WiiBii/WiiB_{ii}/W_{ii} ....

13
СПС по многомерным текстовым данным до классификации случайных лесов?

Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров...

13
Могу ли я сделать PCA по повторным мерам по сокращению данных?

У меня есть 3 испытания каждого на 87 животных в каждом из 2 контекстов (некоторые отсутствующие данные; отсутствие отсутствующих данных = 64 животных). В контексте, у меня есть много конкретных мер в (время , чтобы войти, число раз возвращаюсь в убежище, и т.д.), поэтому я хочу , чтобы разработать...