Вопросы с тегом «classification»

11
Усреднение точности и отзыв при использовании перекрестной проверки

Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос...

11
Инкрементальное обучение для моделей классификации в R

Предположим, у меня есть классификатор (это может быть любой из стандартных классификаторов, таких как дерево решений, случайный лес, логистическая регрессия и т. Д.) Для обнаружения мошенничества с использованием приведенного ниже кода library(randomForest) rfFit = randomForest(Y ~ ., data =...

11
Классификатор для неопределенных меток классов

Допустим, у меня есть набор экземпляров с ассоциированными метками классов. Неважно, как эти экземпляры были помечены, но насколько точно их членство в классе. Каждый экземпляр принадлежит ровно одному классу. Допустим, я могу количественно определить достоверность каждого членства в классе с...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?

Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2...

11
Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут...

11
Как выбрать вероятность отсечения для редкого события Логистическая регрессия

У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня. В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу...

11
Как мы предсказываем редкие события?

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить...

11
Является ли f-мера синонимом точности?

Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...

11
Плюсы дистанции Джеффриса Матуситы

Согласно какой-то статье, которую я читаю, расстояние Джеффриса и Матуситы обычно используется. Но я не мог найти много информации об этом, кроме формулы ниже JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Это похоже на евклидово расстояние, за...

11
Техника машинного обучения для изучения струнных моделей

У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...). Например: "ABC" -> type1 "ACC"...

11
Что такое хороший AUC для кривой точного возврата?

Поскольку у меня очень несбалансированный набор данных (9% положительных результатов), я решил, что кривая точного отзыва была более подходящей, чем кривая ROC. Я получил аналогичную сводную меру площади под кривой PR (.49, если вам интересно), но не уверен, как ее интерпретировать. Я слышал, что...

11
Почему Adaboost с деревьями решений?

Я немного читал об улучшении алгоритмов для задач классификации и Adaboost в частности. Я понимаю, что цель Adaboost состоит в том, чтобы взять нескольких «слабых учеников» и, через набор итераций по обучающим данным, подтолкнуть классификаторы к тому, чтобы научиться предсказывать классы, в...

11
Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?

Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это? На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих...

11
Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...

11
Классификатор с регулируемой точностью и отзывом

Я работаю над проблемой бинарной классификации, где гораздо важнее не иметь ложных срабатываний; довольно много ложных негативов в порядке. Например, я использовал несколько классификаторов в sklearn, но я думаю, что ни один из них не имеет возможности явно регулировать компромисс между точностью и...

11
порог расчета для минимального классификатора риска?

Предположим, что два класса и имеют атрибут и имеют распределение и . если мы имеем равный для следующей матрицы затрат:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5...

11
Как использовать пень принятия решения как слабый ученик в Adaboost?

Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен...

11
Классификация с частично «неизвестными» данными

Предположим, я хочу узнать классификатор, который принимает вектор чисел в качестве входных данных и дает метку класса в качестве выходных данных. Мои тренировочные данные состоят из большого количества пар ввода-вывода. Тем не менее, когда я прихожу к тестированию на некоторых новых данных, эти...

11
Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?

Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это...