Вопросы с тегом «unsupervised-learning»

15
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?

Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как:...

15
Что такое смешивание данных?

Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему...

15
Что такое * искусственная нейронная сеть?

Когда мы углубимся в литературу по нейронным сетям , мы сможем идентифицировать другие методы с нейроморфными топологиями (архитектура, подобная «нейронной сети»). И я не говорю о теореме универсального приближения . Примеры приведены ниже. Тогда это заставляет меня задуматься: каково определение...

14
Как измерить форму кластера?

Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что...

13
Выбор гиперпараметров с использованием T-SNE для классификации

В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание...

13
Инициализация K-средних центров с помощью случайных подвыборок набора данных?

Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее...

12
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

12
Есть ли разница между дистанционным наблюдением, самообучением, самообучаемым обучением и слабым наблюдением?

Из того, что я прочитал: Дистанционное наблюдение : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and...

12
Применение машинного обучения для фильтрации DDoS

В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30...

11
Как понять сверточную сеть глубокого убеждения для классификации аудио?

В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности...

11
SOM кластеризация для номинальных / циклических переменных

Просто интересно, знаком ли кто-нибудь с кластеризацией номинальных входов. Я рассматривал SOM как решение, но, видимо, оно работает только с числовыми функциями. Есть ли расширения для категориальных функций? В частности, мне было интересно узнать о «Днях недели» как о возможностях. Конечно, его...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Оптимальное количество компонентов в гауссовой смеси

Таким образом, получение «идеи» об оптимальном количестве кластеров в k-средних хорошо документировано. Я нашел статью о том, как сделать это в гауссовых смесях, но не уверен, что меня это убедило, я не очень хорошо понимаю. Есть ли ... более мягкий способ сделать...

10
t-SNE со смешанными непрерывными и двоичными переменными

В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных:...

9
Выбор функций для проблем кластеризации

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы....

9
Невозможно заставить эту сеть автоэнкодера функционировать должным образом (со сверточным и максимальным уровнями)

Автоэнкодерные сети кажутся более хитрыми, чем обычные классификаторы MLP сетей. После нескольких попыток использования лазаньи все, что я получаю в восстановленном выводе, в чем-то напоминает размытое усреднение всех изображений базы данных MNIST без различия того, что представляет собой входная...

9
Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)

Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли...