Вопросы с тегом «classification»

10
Когда вы будете использовать PCA, а не LDA в классификации?

Я читаю эту статью о разнице между Принципиальным компонентным анализом и множественным дискриминантным анализом (линейный дискриминантный анализ) и пытаюсь понять, почему вы когда-либо использовали PCA вместо MDA / LDA. Объяснение сводится к следующему: Грубо говоря, в PCA мы пытаемся найти оси с...

10
Почему следует избегать биннинга любой ценой?

Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что...

10
K-ближайший сосед с непрерывными и двоичными переменными

У меня есть набор данных с колонками a b c(3 атрибута). aявляется числовым и непрерывным в то время как bи cявляются категориальными каждый с двумя уровнями. Я использую метод K-Nearest Neighbours для классификации aи bдалее c. Таким образом, чтобы иметь возможность измерять расстояния, я...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Должен ли я перетасовать свои данные?

У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы...

9
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли...

9
Современный метод (ы) для нахождения нулевых средних частей временного ряда

У меня есть шумные временные ряды, которые мне нужно разделить на те части с нулевым средним и те части без нулевого среднего. Очень важно найти границы с максимально возможной точностью (ясно, где граница лежит немного субъективно). Я думаю, что вариант cusum мог бы быть адаптирован для этого, но,...

9
Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

9
Классификация с одним доминирующим предиктором

У меня есть проблема классификации ( class) порядка 100 реальных предикторов, один из которых, по-видимому, обладает гораздо большей объяснительной силой, чем любой другой. Я хотел бы углубиться в эффекты других переменных. Однако стандартные методы машинного обучения (случайные леса, SVM и т. Д.)...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Обучение на реляционных данных

Настройки Многие алгоритмы работают с одним отношением или таблицей, в то время как многие реальные базы данных хранят информацию в нескольких таблицах (Domingos, 2003). Вопрос: Какие типы алгоритмов хорошо усваиваются из нескольких (реляционных) таблиц. В частности, меня интересуют алгоритмы,...

9
Анализ выживания для прогнозирования событий

Для каждой записи в моих наборах данных у меня есть следующая информация (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) где - объекты, - 1, если происходит целевое событие, и 0 в противном случае, а - отметка времени произошедшего события. В частности, может...

9
Какое ядро ​​SVM использовать для решения проблемы двоичной классификации?

Я начинающий, когда дело доходит до поддержки векторных машин. Существуют ли рекомендации, в которых говорится, какое ядро ​​(например, линейное, полиномиальное) лучше всего подходит для конкретной задачи? В моем случае я должен классифицировать веб-страницы в зависимости от того, содержат ли они...

9
LDA против персептрона

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA. Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по...

9
Как измерить производительность классификатора, когда почти 100% меток класса принадлежат одному классу?

В моих данных, у меня есть переменная класса, обозначенная как . Значения переменных этого класса: (двоичные). Почти все наблюдения равны 0 (близко к 100%, точнее 97%). Я хотел бы провести тест производительности на разных классификационных моделях (это может быть точность). Чего я боюсь, так это...

9
Логистическая регрессия: максимизация истинных положительных результатов - ложных положительных результатов

У меня есть модель логистической регрессии (подходит через glmnet в R с упорядоченной упругой сетью), и я хотел бы максимизировать разницу между истинными положительными и ложными положительными сторонами. Для этого на ум пришла следующая процедура: Подходит стандартная модель логистической...

9
порог классификации в RandomForest-sklearn

1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932...

9
Стандартизация функций при использовании LDA в качестве этапа предварительной обработки

Если для уменьшения размерности (или преобразования после уменьшения размерности с помощью PCA) используется мультиклассовый линейный дискриминантный анализ (или я иногда также читаю множественный дискриминантный анализ), я понимаю, что в целом «нормализация по Z-шкале» (или стандартизация) Функции...

9
VC размер прямоугольника

Книга Этема Альпайдина «Введение в машинное обучение» утверждает, что размер VC прямоугольника, ориентированного по оси, равен 4. Но как прямоугольник может разрушить набор из четырех коллинеарных точек с чередующимися положительными и отрицательными точками ?? Может кто-нибудь объяснить и доказать...