Вопросы с тегом «classification»

11
Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?

Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это? На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих...

10
Для задачи классификации, если переменная класса имеет неравномерное распределение, какой метод мы должны использовать?

например если у меня есть переменная кредитного скоринга класса с двумя классами хороший и плохой, где # (хорошо) = 700 и # (плохо) = 300. Я не хочу сокращать свои данные. какую технику я должен использовать? Я использовал SVM, но он дает плохие...

10
Улучшение SVM классификации диабета

Я использую SVM для прогнозирования диабета. Я использую набор данных BRFSS для этой цели. Набор данных имеет размеры и искажен. Процент s в целевой переменной составляет тогда как s составляют оставшиеся .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Я использую только 15из...

10
Являются ли MFCC оптимальным методом представления музыки в поисковой системе?

Техника обработки сигналов, Мелкополосный Кепстр , часто используется для извлечения информации из музыкальной пьесы для использования в задаче машинного обучения. Этот метод дает кратковременный спектр мощности, а коэффициенты используются в качестве входных данных. При проектировании систем...

10
Тест на пропорции и двоичный классификатор

У меня есть прототип машины, производящей детали. В первом тесте машина производит деталей, и двоичный классификатор говорит мне, что детали неисправны ( , обычно и ), а детали хороши.d 1 d 1 < N 1 d 1 / N 1 < 0,01 N 1 ≈ 10 4 N 1 - d 1N1N1N_1d1d1d_1d1< N1d1<N1d_1 < N_1d1/ N1<...

10
Как сравнить точность двух разных моделей, используя статистическую значимость

Я работаю над прогнозированием временных рядов. У меня есть два набора данных: и . У меня есть три модели прогнозирования: M1, M2, M3 . Все эти модели обучаются с использованием выборок в наборе данных D1 , и их производительность измеряется с использованием выборок в наборе данных D2 . Допустим,...

10
Оптимальное количество компонентов в гауссовой смеси

Таким образом, получение «идеи» об оптимальном количестве кластеров в k-средних хорошо документировано. Я нашел статью о том, как сделать это в гауссовых смесях, но не уверен, что меня это убедило, я не очень хорошо понимаю. Есть ли ... более мягкий способ сделать...

10
Откуда появился термин «выучить модель»

Часто я слышал, что майнеры данных используют этот термин. Как статистик, который работал над проблемами классификации, я знаком с термином «обучить классификатора», и я предполагаю, что «выучить модель» означает то же самое. Я не против термина «обучить классификатора». Кажется, это изображает...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Как визуализировать байесовскую доброту, пригодную для логистической регрессии

Для задачи байесовской логистической регрессии я создал апостериорное предиктивное распределение. Я выбираю из прогнозирующего распределения и получаю тысячи выборок (0,1) для каждого наблюдения, которое у меня есть. Визуализация пригодности менее интересна, например: На этом графике показаны 10...

10
SMOTE выдает ошибку для мультиклассовой проблемы дисбаланса

Я пытаюсь использовать SMOTE для исправления дисбаланса в моей проблеме классификации нескольких классов. Хотя SMOTE отлично работает с набором данных iris согласно справочному документу SMOTE, он не работает с аналогичным набором данных. Вот как выглядят мои данные. Обратите внимание, что у него...

10
K-ближайший сосед с непрерывными и двоичными переменными

У меня есть набор данных с колонками a b c(3 атрибута). aявляется числовым и непрерывным в то время как bи cявляются категориальными каждый с двумя уровнями. Я использую метод K-Nearest Neighbours для классификации aи bдалее c. Таким образом, чтобы иметь возможность измерять расстояния, я...

10
Могут ли случайные леса справиться с MNIST намного лучше, чем ошибка тестирования 2,8%?

Я не нашел никакой литературы по применению случайных лесов к MNIST, CIFAR, STL-10 и т. Д., Поэтому я решил попробовать их с MNIST, не зависящим от перестановок . В R я попробовал: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Это работало в течение 2 часов и получило...

10
Как изменить порог для классификации в R randomForests?

Вся литература по моделированию распределения видов предполагает, что при прогнозировании присутствия / отсутствия вида с использованием модели, которая выводит вероятности (например, RandomForests), важен выбор пороговой вероятности, с помощью которой можно фактически классифицировать вид как...

10
ROC-кривые для несбалансированных наборов данных

Рассмотрим входную матрицу и двоичный выход .XXXyyy Распространенным способом измерения производительности классификатора является использование кривых ROC. На графике ROC диагональ - это результат, который можно получить из случайного классификатора. В случае несбалансированного выходного сигнала...

10
Как классифицировать несбалансированный набор данных по сверточным нейронным сетям (CNN)?

У меня есть несбалансированный набор данных в задаче двоичной классификации, где количество положительных и отрицательных значений составляет 0,3% против 99,7%. Разрыв между позитивами и негативами огромен. Когда я тренирую CNN со структурой, используемой в задаче MNIST, результат тестирования...

10
Применение PCA для проверки данных в целях классификации

Недавно я узнал о замечательном PCA, и я сделал пример, изложенный в документации scikit-learn . Мне интересно знать, как я могу применить PCA к новым точкам данных для целей классификации. После визуализации PCA в двухмерной плоскости (ось x, y) я вижу, что, вероятно, могу нарисовать линию, чтобы...

10
Переоснащение с помощью линейных классификаторов

Сегодня наш профессор заявил в классе, что «переоснащение линейными классификаторами невозможно». Я считаю, что это неправильно, поскольку даже линейные классификаторы могут быть чувствительны к выбросам в обучающем наборе - возьмем, например, машину векторов поддержки с жестким полем: один...

10
Примеры использования RBF SVM (против логистической регрессии и случайного леса)

Машины опорных векторов с ядром радиально-базовой функции - это универсальный контролируемый классификатор. Хотя я знаю теоретические основы этих SVM и их сильные стороны, я не знаю случаев, когда они являются предпочтительным методом. Итак, существует ли класс проблем, для которых SVM RBF...

10
Обычно нейронным сетям требуется время, чтобы «включиться» во время тренировки?

Я пытаюсь обучить глубокую нейронную сеть для классификации, используя обратное распространение. В частности, я использую сверточную нейронную сеть для классификации изображений, используя библиотеку Tensor Flow. Во время тренировок я испытываю какое-то странное поведение, и мне просто интересно,...