Вопросы с тегом «unsupervised-learning»

Поиск скрытой (статистической) структуры в немаркированных данных, включая кластеризацию и извлечение признаков для уменьшения размерности.

77
Как получить симпатичный график результатов кластерного анализа k-средних?

Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...

53
Как искусственная нейронная сеть ANN может использоваться для неконтролируемой кластеризации?

Я понимаю, как artificial neural network (ANN)можно обучаться контролируемым образом с использованием обратного распространения для улучшения подгонки путем уменьшения ошибки в прогнозах. Я слышал, что ANN можно использовать для обучения без учителя, но как это можно сделать без какой-либо функции...

35
Каковы различия между разреженным кодированием и автоэнкодером?

Разреженное кодирование определяется как изучение слишком полного набора базовых векторов для представления входных векторов (<- зачем нам это нужно). Каковы различия между разреженным кодированием и автоэнкодером? Когда мы будем использовать разреженное кодирование и...

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

33
Выбор правильного метода связи для иерархической кластеризации

Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m:...

30
Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса

Контролируемое обучение 1) Человек строит классификатор на основе входных и выходных данных 2) Этот классификатор обучается с обучающим набором данных 3) Этот классификатор тестируется с тестовым набором данных 4) Развертывание, если выход удовлетворительный Для использования, когда «я знаю, как...

29
Различение между двумя группами в статистике и машинном обучении: проверка гипотез против классификации и кластеризации

Предположим, у меня есть две группы данных, помеченные A и B (каждая из которых содержит, например, 200 образцов и 1 особенность), и я хочу знать, отличаются ли они. Я мог бы: а) выполнить статистический тест (например, t-тест), чтобы увидеть, отличаются ли они статистически. б) использовать...

27
Неконтролируемое, контролируемое и полуконтролируемое обучение

В контексте машинного обучения, в чем разница между неконтролируемое обучение контролируемое обучение и полу-контролируемое обучение? И каковы некоторые из основных алгоритмических...

25
Процедура кластеризации, где каждый кластер имеет равное количество точек?

У меня есть несколько точек в R p , и я хочу сгруппировать точки так, чтобы:Икс= { х1, . , , , хN}Иксзнак равно{Икс1,,,,,ИксN}X=\{x_1,...,x_n\}рпрпR^p Каждый кластер содержит равное количество элементов . (Предположим, что число кластеров делит n .)ИксИксXNNn Каждый кластер в некотором смысле...

25
Ежедневный анализ временных рядов

Я пытаюсь провести анализ временных рядов, и я новичок в этой области. У меня есть ежедневный подсчет событий с 2006 по 2009 год, и я хочу приспособить модель временного ряда к нему. Вот прогресс, который я сделал: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) В...

22
Контролируемая кластеризация или классификация?

Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»? Об этом много ссылок:...

22
Генеративные и дискриминационные модели (в байесовском контексте)

Каковы различия между порождающими и дискриминационными (дискриминантными) моделями (в контексте байесовского обучения и умозаключений)? и какое это имеет отношение к предсказанию, теории принятия решений или обучению без...

21
Как предсказать результат только с положительными случаями в качестве обучения?

Ради простоты, скажем, я работаю над классическим примером писем со спамом / без спама. У меня есть набор из 20000 писем. Из них я знаю, что 2000 являются спамом, но у меня нет примеров писем, не являющихся спамом. Я хотел бы предсказать, являются ли оставшиеся 18000 спамом или нет. В идеале,...

20
Дистанционное наблюдение: под наблюдением, под наблюдением или оба?

«Дистанционный контроль» - это схема обучения, в которой классификатор обучается с использованием слабо маркированного обучающего набора (данные обучения автоматически маркируются на основе эвристики / правил). Я думаю, что как контролируемое обучение, так и полууправляемое обучение могут включать...

20
Каково многообразное допущение в обучении под наблюдением?

Я пытаюсь выяснить, что означает многообразное допущение в обучении под наблюдением. Кто-нибудь может объяснить по-простому? Я не могу получить интуицию за этим. Это говорит о том, что ваши данные лежат на многомерном многообразии, вложенном в многомерное пространство. Я не понял, что это...

19
Как понять недостатки иерархической кластеризации?

Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот?...

15
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?

Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как:...

15
Что такое смешивание данных?

Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему...