Вопросы с тегом «supervised-learning»

20
Каково многообразное допущение в обучении под наблюдением?

Я пытаюсь выяснить, что означает многообразное допущение в обучении под наблюдением. Кто-нибудь может объяснить по-простому? Я не могу получить интуицию за этим. Это говорит о том, что ваши данные лежат на многомерном многообразии, вложенном в многомерное пространство. Я не понял, что это...

19
Как понять недостатки иерархической кластеризации?

Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот?...

16
Является ли контролируемое обучение подмножеством обучения с подкреплением?

Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное...

15
Что такое * искусственная нейронная сеть?

Когда мы углубимся в литературу по нейронным сетям , мы сможем идентифицировать другие методы с нейроморфными топологиями (архитектура, подобная «нейронной сети»). И я не говорю о теореме универсального приближения . Примеры приведены ниже. Тогда это заставляет меня задуматься: каково определение...

15
Что такое смешивание данных?

Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?

Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как:...

14
Интервалы прогнозирования для алгоритмов машинного обучения

Я хочу знать, является ли процесс, описанный ниже, действительным / приемлемым и доступно ли любое обоснование. Идея: контролируемые алгоритмы обучения не предполагают базовых структур / распределений данных. В конце дня они выводят точечные оценки. Я надеюсь как-то количественно оценить...

14
Как измерить форму кластера?

Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что...

13
Выбор гиперпараметров с использованием T-SNE для классификации

В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание...

13
Контролируемое уменьшение размерности

У меня есть набор данных, состоящий из 15K помеченных образцов (из 10 групп). Я хочу применить уменьшение размерности к двум измерениям, которые бы учитывали знание меток. Когда я использую «стандартные» неконтролируемые методы уменьшения размерности, такие как PCA, график рассеяния, кажется, не...

13
Инициализация K-средних центров с помощью случайных подвыборок набора данных?

Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Применение машинного обучения для фильтрации DDoS

В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30...

12
Градиентный спуск не находит решения для обычных наименьших квадратов в этом наборе данных?

Я изучал линейную регрессию и попробовал ее на приведенном ниже множестве {(x, y)}, где x указал площадь дома в квадратных футах, а y - цену в долларах. Это первый пример в Andrew Ng Notes . 2104.400 1600.330 2400.369 1416.232 3000.540 Я разработал пример кода, но когда я его запускаю, стоимость...

12
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций

У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом...

12
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют...

12
Есть ли разница между дистанционным наблюдением, самообучением, самообучаемым обучением и слабым наблюдением?

Из того, что я прочитал: Дистанционное наблюдение : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and...