Вопросы с тегом «classification»

11

Усреднение точности и отзыв при использовании перекрестной проверки

Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос...

classification cross-validation precision-recall

11

Инкрементальное обучение для моделей классификации в R

Предположим, у меня есть классификатор (это может быть любой из стандартных классификаторов, таких как дерево решений, случайный лес, логистическая регрессия и т. Д.) Для обнаружения мошенничества с использованием приведенного ниже кода library(randomForest) rfFit = randomForest(Y ~ ., data =...

classification supervised-learning

11

Классификатор для неопределенных меток классов

Допустим, у меня есть набор экземпляров с ассоциированными метками классов. Неважно, как эти экземпляры были помечены, но насколько точно их членство в классе. Каждый экземпляр принадлежит ровно одному классу. Допустим, я могу количественно определить достоверность каждого членства в классе с...

classification weka uncertainty

11

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Первый основной компонент не разделяет классы, но другие ПК делают; как это возможно?

Я запустил PCA на 17 количественных переменных, чтобы получить меньший набор переменных, которые являются основными компонентами, которые будут использоваться в контролируемом машинном обучении для классификации экземпляров на два класса. После PCA на ПК1 приходится 31% отклонений в данных, на ПК2...

machine-learning classification pca dimensionality-reduction

11

Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут...

classification confidence-interval cross-validation matlab

11

Как выбрать вероятность отсечения для редкого события Логистическая регрессия

У меня есть 100 000 наблюдений (9 фиктивных переменных индикатора) с 1000 положительных результатов. Логистическая регрессия должна работать нормально в этом случае, но вероятность отсечения озадачивает меня. В обычной литературе мы выбираем 50% -ное сокращение, чтобы предсказать 1 и 0. Я не могу...

regression logistic classification generalized-linear-model roc

11

Как мы предсказываем редкие события?

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить...

classification predictive-models scikit-learn poisson-process

11

Является ли f-мера синонимом точности?

Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...

machine-learning classification data-mining unbalanced-classes accuracy

11

Плюсы дистанции Джеффриса Матуситы

Согласно какой-то статье, которую я читаю, расстояние Джеффриса и Матуситы обычно используется. Но я не мог найти много информации об этом, кроме формулы ниже JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Это похоже на евклидово расстояние, за...

classification k-nearest-neighbour euclidean

11

Техника машинного обучения для изучения струнных моделей

У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...). Например: "ABC" -> type1 "ACC"...

machine-learning classification similarities supervised-learning

11

Что такое хороший AUC для кривой точного возврата?

Поскольку у меня очень несбалансированный набор данных (9% положительных результатов), я решил, что кривая точного отзыва была более подходящей, чем кривая ROC. Я получил аналогичную сводную меру площади под кривой PR (.49, если вам интересно), но не уверен, как ее интерпретировать. Я слышал, что...

classification precision-recall auc

11

Почему Adaboost с деревьями решений?

Я немного читал об улучшении алгоритмов для задач классификации и Adaboost в частности. Я понимаю, что цель Adaboost состоит в том, чтобы взять нескольких «слабых учеников» и, через набор итераций по обучающим данным, подтолкнуть классификаторы к тому, чтобы научиться предсказывать классы, в...

machine-learning classification algorithms boosting

11

Является ли AUC вероятностью правильной классификации случайно выбранного экземпляра из каждого класса?

Я прочитал эту подпись в газете и никогда не видел, чтобы AUC описывали таким образом где-либо еще. Это правда? Есть ли доказательство или простой способ увидеть это? На рис. 2 показана точность прогнозирования дихотомических переменных, выраженная в терминах площади под кривой рабочих...

classification roc auc

11

Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...

machine-learning classification data-mining cart

11

Классификатор с регулируемой точностью и отзывом

Я работаю над проблемой бинарной классификации, где гораздо важнее не иметь ложных срабатываний; довольно много ложных негативов в порядке. Например, я использовал несколько классификаторов в sklearn, но я думаю, что ни один из них не имеет возможности явно регулировать компромисс между точностью и...

classification precision-recall

11

порог расчета для минимального классификатора риска?

Предположим, что два класса и имеют атрибут и имеют распределение и . если мы имеем равный для следующей матрицы затрат:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5...

machine-learning classification bayesian normal-distribution bivariate

11

Как использовать пень принятия решения как слабый ученик в Adaboost?

Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен...

machine-learning classification cart boosting

11

Классификация с частично «неизвестными» данными

Предположим, я хочу узнать классификатор, который принимает вектор чисел в качестве входных данных и дает метку класса в качестве выходных данных. Мои тренировочные данные состоят из большого количества пар ввода-вывода. Тем не менее, когда я прихожу к тестированию на некоторых новых данных, эти...

machine-learning classification neural-networks deep-learning

11

Какую функцию потерь следует использовать для получения двоичного классификатора с высокой точностью или высокой степенью отзыва?

Я пытаюсь сделать детектор объектов, которые встречаются очень редко (в изображениях), планируя использовать двоичный классификатор CNN, применяемый в скользящем окне с измененным размером. Я построил сбалансированные положительно-отрицательные обучающие и тестовые наборы (кстати, правильно ли это...

logistic classification unbalanced-classes loss-functions