Вопросы с тегом «classification»

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

34
Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов

У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных...

32
Какой диапазон поиска для определения оптимальных параметров С и гамма SVM?

Я использую SVM для классификации и пытаюсь определить оптимальные параметры для линейных и RBF-ядер. Для линейного ядра я использую перекрестный проверенный выбор параметров, чтобы определить C, а для ядра RBF я использую поиск по сетке, чтобы определить C и гамму. У меня есть 20 (числовых)...

32
Статистическая классификация текста

Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом...

31
Как Наивный Байес является линейным классификатором?

Я видел другую ветку здесь, но я не думаю, что ответ удовлетворил фактический вопрос. Я постоянно читал, что Наивный Байес - это линейный классификатор (например, здесь ) (такой, что он рисует линейную границу решения), использующий демонстрацию логических шансов. Однако я смоделировал два...

31
Относительная важность набора предикторов в классификации случайных лесов в R

Я хотел бы определить относительную важность наборов переменных для randomForestмодели классификации в R. importanceФункция предоставляет MeanDecreaseGiniметрику для каждого отдельного предиктора - это так же просто, как суммировать это для каждого предиктора в наборе? Например: # Assumes df has...

30
Как определить качество мультиклассового классификатора

Данный набор данных с экземплярами xiИксяx_i вместе с NNN классами, где каждый экземпляр xiИксяx_i принадлежит ровно одному классу yiYяy_i мультиклассовый классификатор После обучения и тестирования у меня в основном есть таблица с истинным классом yiyiy_i и прогнозируемым классом aiaia_i для...

30
Каковы отрасли статистики?

В математике есть такие отрасли, как алгебра, анализ, топология и т. Д. В машинном обучении есть обучение под присмотром, без присмотра и подкрепление. В каждой из этих ветвей есть более тонкие ветви, которые еще больше разделяют методы. У меня проблемы с проведением параллели со статистикой....

30
В чем причина проблемы дисбаланса классов?

В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном /...

29
Как статистически сравнить производительность классификаторов машинного обучения?

Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую...

29
Разница между наивным байесовским и многочленным наивным байесовским

Я имел дело с наивным байесовским классификатором раньше. В последнее время я читаю о многокомном наивном байесовском . Также Задняя Вероятность = (Приоритет * Вероятность) / (Доказательства) . Единственное главное отличие (при программировании этих классификаторов), которое я обнаружил между...

29
Процедура выбора переменной для двоичной классификации

Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем...

29
Когда я должен сбалансировать классы в наборе данных обучения?

У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать...

29
Площадь под кривой ROC против общей точности

Я немного сбиваю с толку насчет площади под кривой (AUC) ROC и общей точности. Будет ли AUC пропорционален общей точности? Другими словами, когда мы получим большую общую точность, мы определенно увеличим AUC? Или они по определению положительно коррелируют? Если они положительно коррелируют, зачем...

29
Почему AUC выше для классификатора, который менее точен, чем для более точного классификатора?

У меня есть два классификатора A: наивная байесовская сеть B: древовидная (односвязная) байесовская сеть С точки зрения точности и других показателей, A работает сравнительно хуже, чем B. Однако, когда я использую пакеты R ROCR и AUC для выполнения анализа ROC, оказывается, что AUC для A выше, чем...

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

28
В «Наивном байесовском», зачем беспокоиться о сглаживании Лапласа, когда в тестовом наборе есть неизвестные слова?

Я читал сегодня наивную байесовскую классификацию. Я прочитал под заголовком Оценка параметров с добавлением сглаживания 1 : Пусть ccc ссылается на класс (например, Positive или Negative), а указывает на токен или слово.www Оценка максимального правдоподобия для...

27
Нейронная сеть: для двоичной классификации использовать 1 или 2 выходных нейрона?

Предположим, я хочу сделать бинарную классификацию (что-то принадлежит классу A или классу B). Есть несколько возможностей сделать это в выходном слое нейронной сети: Используйте 1 выходной узел. Выход 0 (<0.5) считается классом A, а 1 (> = 0.5) считается классом B (в случае сигмовидной...

27
Что может привести к тому, что PCA ухудшит результаты классификатора?

У меня есть классификатор, по которому я делаю перекрестную проверку, а также около сотни функций, по которым я делаю предварительный выбор, чтобы найти оптимальные комбинации функций. Я также сравниваю это с проведением тех же экспериментов с PCA, где я беру потенциальные особенности, применяю...