Вопросы с тегом «dimensionality-reduction»

12
Выполнение PCA только с дистанционной матрицей

Я хочу объединить массивный набор данных, для которого у меня есть только попарные расстояния. Я реализовал алгоритм k-medoids, но его запуск занимает слишком много времени, поэтому я хотел бы начать с уменьшения масштабов моей проблемы путем применения PCA. Тем не менее, единственный способ,...

12
Какая польза от t-SNE, кроме визуализации данных?

В каких ситуациях мы должны использовать t-SNE (кроме визуализации данных)? T-SNE используется для уменьшения размерности. Ответ на этот вопрос предполагает, что t-SNE следует использовать только для визуализации, и что мы не должны использовать его для кластеризации. Тогда какая польза от...

12
Метод Нистроема для аппроксимации ядра

Я читал о методе Nyström для апроксимации ядра низкого ранга. Этот метод реализован в scikit-learn [1] как метод проецирования выборок данных в низкосортное приближение отображения характеристик ядра. Насколько мне известно, данный учебный набор и функция ядра, она генерирует низкокачественного...

12
Как выбрать ядро ​​для ядра PCA?

Какими способами можно выбрать, какое ядро ​​приведет к хорошему разделению данных при окончательном выводе данных ядром PCA (анализ основных компонентов), и как оптимизировать параметры ядра? Условия Лаймана, если это возможно, будут высоко оценены, и ссылки на статьи, которые объясняют такие...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Каково значение осей в t-SNE?

В настоящее время я пытаюсь обернуть голову вокруг математики t-SNE . К сожалению, есть еще один вопрос, на который я не могу ответить удовлетворительно: каково реальное значение осей в графике t-SNE? Если бы я выступил с докладом на эту тему или включил бы его в любую публикацию: как бы я...

11
Есть ли какое-либо значение в уменьшении размерности набора данных, где все переменные приблизительно ортогональны?

Предположим, у меня есть мерный набор данных, где измерений примерно ортогональны (имеют нулевую корреляцию).NNNNNNN Есть ли какая-либо полезность с точки зрения: Визуализация Представление (для эффективности классификатора) Или другие критерии выполнить уменьшение размерности...

11
Техника сокращения данных для определения типов стран

Я преподаю вводный курс экономической географии. Чтобы помочь моим студентам лучше понять виды стран, которые существуют в современной мировой экономике, и оценить методы сокращения данных, я хочу составить задание, которое создает типологию разных типов стран (например, добавленная стоимость,...

11
Как определить параметры для t-SNE для уменьшения размеров?

Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов. Однако, для t-SNE, я не знаю, сколько...

11
В чем преимущество уменьшения размерности предикторов для целей регрессии?

Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи...

11
Каковы предположения факторного анализа?

Я хочу проверить, действительно ли я понял [классический, линейный] факторный анализ (ФА), особенно предположения , сделанные до (и, возможно, после) ФА. Некоторые данные должны быть изначально коррелированы, и между ними возможна линейная связь. После проведения факторного анализа данные обычно...

11
Почему PCA максимизирует общую дисперсию проекции?

Кристофер Бишоп пишет в своей книге « Распознавание образов и машинное обучение», доказывая, что каждый последовательный главный компонент максимизирует дисперсию проекции в одно измерение после того, как данные были спроецированы в ортогональное пространство для ранее выбранных компонентов. Другие...

11
Визуализация данных больших размеров

У меня есть образцы двух классов, которые являются векторами в многомерном пространстве, и я хочу построить их в 2D или 3D. Я знаю о методах уменьшения размерности, но мне нужен действительно простой и легкий в использовании инструмент (в matlab, python или в готовом .exe). Также мне интересно,...

11
Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?

Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2...

10
Строго говоря, «случайная проекция» не является проекцией?

Текущие реализации алгоритма случайного Проекционного уменьшить размерность выборок данных путем сопоставления их с к с использованием проекции матрицы , элементы которой являются IID из подходящего распределения (например , из ):рdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Возможна ли крупномасштабная PCA?

Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная...

10
Когда вы будете использовать PCA, а не LDA в классификации?

Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с...

10
t-SNE со смешанными непрерывными и двоичными переменными

В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных:...