Вопросы с тегом «classification»

51

Почему бы не приблизиться к классификации через регрессию?

В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные...

regression machine-learning classification

49

Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос...

machine-learning classification binary-data threshold

49

Почему логистическая регрессия является линейным классификатором?

Поскольку мы используем логистическую функцию для преобразования линейной комбинации входных данных в нелинейный выход, как логистическую регрессию можно считать линейным классификатором? Линейная регрессия похожа на нейронную сеть без скрытого слоя, так почему же нейронные сети считаются...

logistic classification neural-networks

45

Линейное ядро и нелинейное ядро для опорных векторов машины?

При использовании машины опорных векторов есть ли какие-либо рекомендации по выбору линейного ядра или нелинейного ядра, например, RBF? Я когда-то слышал, что нелинейное ядро имеет тенденцию не работать хорошо, когда количество функций велико. Есть ли какие-либо ссылки на этот...

machine-learning classification svm references kernel-trick

43

Обучение дерева решений против несбалансированных данных

Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который...

classification cart unbalanced-classes accuracy

43

Особенности классификации временных рядов

Я рассматриваю проблему (мультиклассовой) классификации на основе временных рядов переменной длины , то есть найти функцию через глобальное представление серии времени с помощью набора выбранных функций фиксированного размера зависящего от , а затем используйте стандартные методы классификации для...

time-series classification feature-selection signal-processing

43

Случайные лесные предположения

Я новичок в случайном лесу, поэтому я все еще борюсь с некоторыми основными понятиями. В линейной регрессии мы предполагаем независимые наблюдения, постоянную дисперсию ... Какие основные предположения / гипотезы мы делаем, когда используем случайный лес? Каковы основные различия между случайным...

regression classification random-forest

42

Почему внизу?

Предположим, я хочу узнать классификатор, который предсказывает, является ли электронная почта спамом. И предположим, что только 1% писем являются спамом. Проще всего было бы изучить тривиальный классификатор, который говорит, что ни одно из писем не является спамом. Этот классификатор дал бы нам...

machine-learning classification

41

Как интерпретировать значения F-меры?

Я хотел бы знать, как интерпретировать разницу значений f-меры. Я знаю, что f-мера - это сбалансированное среднее между точностью и отзывом, но я спрашиваю о практическом значении различия в F-мерах. Например, если классификатор C1 имеет точность 0,4, а другой классификатор C2 - 0,8, то можно...

classification precision-recall

38

Почему наивные байесовские классификаторы так хорошо работают?

Наивные байесовские классификаторы являются популярным выбором для задач классификации. Есть много причин для этого, в том числе: «Zeitgeist» - широко распространенная осведомленность после успеха спам-фильтров около десяти лет назад Легко написать Модель классификатора быстро построить Модель...

classification naive-bayes

38

ImageNet: что такое топ-1 и топ-5 ошибок?

В классификационных документах ImageNet показатели ошибок топ-1 и топ-5 являются важными единицами измерения успешности некоторых решений, но каковы эти коэффициенты ошибок? В классификации ImageNet с глубокими сверточными нейронными сетями Крижевский и соавт. каждое решение, основанное на одной...

classification neural-networks error measurement-error image-processing

38

Применить вложения слов ко всему документу, чтобы получить вектор объектов

Как использовать вложение слов для сопоставления документа с вектором объектов, подходящим для использования с контролируемым обучением? Слово вложение отображает каждое слово к вектору , где некоторые не слишком большое количество (например, 500). Популярные вложения слова включают в себя word2vec...

classification natural-language supervised-learning word2vec word-embeddings

37

SVM, переоснащение, проклятие размерности

Мой набор данных небольшой (120 выборок), однако количество объектов велико и варьируется от (1000-200 000). Хотя я делаю выбор функции, чтобы выбрать подмножество функций, она все равно может быть перегружена. Мой первый вопрос: как SVM справляется с перегрузкой? Во-вторых, поскольку я больше...

classification svm

37

Улучшение классификации со многими категориальными переменными

Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50...

machine-learning classification categorical-data random-forest many-categories

36

Логистическая регрессия против LDA как классификаторы двух классов

Я пытаюсь обернуть голову вокруг статистической разницы между линейным дискриминантным анализом и логистической регрессией . Правильно ли я понимаю, что для двух классов задачи классификации LDA предсказывает две функции нормальной плотности (по одной для каждого класса), которые создают линейную...

regression logistic classification discriminant-analysis

35

PCA и разделение поезда / теста

У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для...

machine-learning classification pca cross-validation

35

Как интерпретировать OOB и путаницу для случайного леса?

Я получил R-скрипт от кого-то для запуска модели случайного леса. Я изменил и запустил его с некоторыми данными о сотрудниках. Мы пытаемся предсказать добровольное увольнение. Вот некоторая дополнительная информация: это модель классификации, в которой 0 = сотрудник остался, 1 = сотрудник уволен, в...

r classification error random-forest

35

Свободный набор данных для очень высокой размерной классификации [закрыто]

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который...

machine-learning classification dataset large-data

34

Что подразумевается под «слабым учеником»?

Может кто-нибудь сказать мне, что подразумевается под фразой «слабый ученик»? Это должна быть слабая гипотеза? Я запутался в отношениях между слабым учеником и слабым классификатором. Оба одинаковы или есть какая-то разница? В алгоритме adaboost T=10. Что подразумевается под этим? Почему мы...

classification svm terminology adaboost pac-learning

34

Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов

У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных...

r machine-learning classification random-forest