Вопросы с тегом «dimensionality-reduction»

Снижение размерности относится к методам сокращения многих переменных до меньшего числа при сохранении как можно большего объема информации. Один из известных методов - [tag pca]

59
Что такое уменьшение размерности? В чем разница между выбором объектов и извлечением?

Из википедии, Уменьшение размерности или уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор и извлечение признаков. В чем разница между выбором и извлечением объектов? Что является примером уменьшения размерности в задаче...

29
Как сделать SVD и PCA с большими данными?

У меня есть большой набор данных (около 8 ГБ). Я хотел бы использовать машинное обучение для его анализа. Итак, я думаю, что я должен использовать SVD, а затем PCA, чтобы уменьшить размерность данных для эффективности. Однако MATLAB и Octave не могут загрузить такой большой набор данных. Какие...

25
Методы машинного обучения для оценки возраста пользователей на сайтах Facebook, которые им нравятся

У меня есть база данных из приложения Facebook, и я пытаюсь использовать машинное обучение для оценки возраста пользователей на основе того, какие сайты Facebook им нравятся. Есть три важных характеристики моей базы данных: распределение по возрасту в моем обучающем наборе (в сумме 12 тыс....

23
Цель визуализации данных больших размеров?

Существует много методов визуализации наборов данных высокой размерности, таких как T-SNE, isomap, PCA, контролируемая PCA и т. Д. И мы проходим процессы проецирования данных вниз в 2D или 3D-пространство, поэтому у нас есть «красивые картинки». ». Некоторые из этих методов вложения (многократного...

18
Повышение скорости реализации t-sne в python для больших данных

Я хотел бы уменьшить размерность почти на 1 миллион векторов с 200 измерениями ( doc2vec). Я использую TSNEреализацию из sklearn.manifoldмодуля, и главная проблема - временная сложность. Даже при том method = barnes_hut, что скорость вычислений все еще низка. Некоторое время даже не хватает памяти....

18
Значимы ли размеры t-sne?

Есть ли смысл для размеров вложения t-sne? Как и в случае с PCA, у нас есть смысл линейно преобразованных максимизаций дисперсии, но для t-sne существует ли интуиция, кроме пространства, которое мы определяем для отображения и минимизации...

17
Ближайшие соседи ищут данные очень большого размера

У меня есть большая разреженная матрица пользователей и элементов, которые им нравятся (порядка 1М пользователей и 100 тыс. Элементов с очень низким уровнем разреженности). Я исследую способы, которыми я мог бы выполнить поиск kNN на нем. Учитывая размер моего набора данных и некоторые начальные...

16
Выбор функций против извлечения функций. Что использовать, когда?

Извлечение функций и выбор функций существенно уменьшают размерность данных, но извлечение функций также делает данные более разделимыми, если я прав. Какой метод предпочтительнее другого и когда? Я подумал, поскольку выбор функции не изменяет исходные данные и их свойства, я предполагаю, что вы...

14
Многомерные данные: какие полезные методы нужно знать?

Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например, Являются ли определенные...

14
Можно ли считать более близкие точки более похожими в визуализации T-SNE?

Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация). Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую...

13
Почему автоэнкодеры для уменьшения размера симметричны?

Я ни в коем случае не эксперт по автоэнкодерам или нейронным сетям, так что извините, если это глупый вопрос. В целях уменьшения размеров или визуализации кластеров в многомерных данных мы можем использовать автоэнкодер для создания двумерного представления (с потерями) путем проверки выходных...

13
Одна горячая альтернатива кодирования для больших категориальных значений?

У меня есть датафрейм с большими категориальными значениями более 1600 категорий, есть ли способ найти альтернативы, чтобы у меня не было более 1600 столбцов. Я нашел эту интересную ссылку ниже http://amunategui.github.io/feature-hashing/#sourcecode Но они конвертируются в класс / объект, который я...

12
Эффективное уменьшение размерности для большого набора данных

У меня есть набор данных с ~ 1M строк и ~ 500K разреженных объектов. Я хочу уменьшить размерность до порядка 1K-5K плотных объектов. sklearn.decomposition.PCAне работает с разреженными данными, и я пытался использовать, sklearn.decomposition.TruncatedSVDно получаю ошибку памяти довольно быстро....

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

9
t-SNE: почему одинаковые значения данных визуально не близки?

У меня есть 200 точек данных, которые имеют одинаковые значения для всех функций. После уменьшения размера t-SNE они больше не выглядят такими ровными, вот так: Почему они не находятся в одной точке визуализации и даже, кажется, распределены в двух разных...