Вопросы с тегом «classification»

10

Когда вы будете использовать PCA, а не LDA в классификации?

Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с...

10

Почему следует избегать биннинга любой ценой?

Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что...

classification categorical-data continuous-data splines binning

10

K-ближайший сосед с непрерывными и двоичными переменными

У меня есть набор данных с колонками a b c(3 атрибута). aявляется числовым и непрерывным в то время как bи cявляются категориальными каждый с двумя уровнями. Я использую метод K-Nearest Neighbours для классификации aи bдалее c. Таким образом, чтобы иметь возможность измерять расстояния, я...

r classification k-nearest-neighbour

9

Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

9

Должен ли я перетасовать свои данные?

У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы...

classification modeling experiment-design cross-validation bootstrap

9

Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли...

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

9

Современный метод (ы) для нахождения нулевых средних частей временного ряда

У меня есть шумные временные ряды, которые мне нужно разделить на те части с нулевым средним и те части без нулевого среднего. Очень важно найти границы с максимально возможной точностью (ясно, где граница лежит немного субъективно). Я думаю, что вариант cusum мог бы быть адаптирован для этого, но,...

time-series classification mean change-point

9

Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

machine-learning classification data-mining logistic stratification

9

Классификация с одним доминирующим предиктором

У меня есть проблема классификации ( class) порядка 100 реальных предикторов, один из которых, по-видимому, обладает гораздо большей объяснительной силой, чем любой другой. Я хотел бы углубиться в эффекты других переменных. Однако стандартные методы машинного обучения (случайные леса, SVM и т. Д.)...

machine-learning classification

9

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

9

Обучение на реляционных данных

Настройки Многие алгоритмы работают с одним отношением или таблицей, в то время как многие реальные базы данных хранят информацию в нескольких таблицах (Domingos, 2003). Вопрос: Какие типы алгоритмов хорошо усваиваются из нескольких (реляционных) таблиц. В частности, меня интересуют алгоритмы,...

regression machine-learning classification dataset

9

Анализ выживания для прогнозирования событий

Для каждой записи в моих наборах данных у меня есть следующая информация (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) где - объекты, - 1, если происходит целевое событие, и 0 в противном случае, а - отметка времени произошедшего события. В частности, может...

classification survival

9

Какое ядро SVM использовать для решения проблемы двоичной классификации?

Я начинающий, когда дело доходит до поддержки векторных машин. Существуют ли рекомендации, в которых говорится, какое ядро (например, линейное, полиномиальное) лучше всего подходит для конкретной задачи? В моем случае я должен классифицировать веб-страницы в зависимости от того, содержат ли они...

classification svm model-selection libsvm kernel-trick

9

LDA против персептрона

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA. Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по...

machine-learning classification discriminant-analysis supervised-learning

9

Как измерить производительность классификатора, когда почти 100% меток класса принадлежат одному классу?

В моих данных, у меня есть переменная класса, обозначенная как . Значения переменных этого класса: (двоичные). Почти все наблюдения равны 0 (близко к 100%, точнее 97%). Я хотел бы провести тест производительности на разных классификационных моделях (это может быть точность). Чего я боюсь, так это...

classification binary-data model-evaluation

9

Логистическая регрессия: максимизация истинных положительных результатов - ложных положительных результатов

У меня есть модель логистической регрессии (подходит через glmnet в R с упорядоченной упругой сетью), и я хотел бы максимизировать разницу между истинными положительными и ложными положительными сторонами. Для этого на ум пришла следующая процедура: Подходит стандартная модель логистической...

r regression logistic classification glmnet

9

порог классификации в RandomForest-sklearn

1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932...

classification random-forest precision-recall unbalanced-classes

9

Стандартизация функций при использовании LDA в качестве этапа предварительной обработки

Если для уменьшения размерности (или преобразования после уменьшения размерности с помощью PCA) используется мультиклассовый линейный дискриминантный анализ (или я иногда также читаю множественный дискриминантный анализ), я понимаю, что в целом «нормализация по Z-шкале» (или стандартизация) Функции...

classification data-transformation normalization standardization discriminant-analysis

9

ImageNet: что означает ошибка топ-5?

Один из методов оценки для ImageNet Competition (классифицирует 1000 категорий изображений) - ошибка топ-5, что это значит? Смотрите:

machine-learning classification computer-vision

9

VC размер прямоугольника

Книга Этема Альпайдина «Введение в машинное обучение» утверждает, что размер VC прямоугольника, ориентированного по оси, равен 4. Но как прямоугольник может разрушить набор из четырех коллинеарных точек с чередующимися положительными и отрицательными точками ?? Может кто-нибудь объяснить и доказать...

classification vc-dimension