Вопросы с тегом «classification»

17
Когда Наивный Байес работает лучше, чем SVM?

В небольшой проблеме классификации текста, которую я рассматривал, Наивный Байес демонстрирует производительность, аналогичную или превышающую SVM, и я был очень смущен. Мне было интересно, какие факторы определяют триумф одного алгоритма над другим. Существуют ли ситуации, когда нет смысла...

16
Что такое нулевая модель в регрессии и как она связана с нулевой гипотезой?

Что такое нулевая модель в регрессии и какова связь между нулевой моделью и нулевой гипотезой? Насколько я понимаю, это значит Используя «среднее значение переменной отклика» для прогнозирования переменной непрерывного отклика? Использование «распределения меток» при прогнозировании дискретных...

16
Что это означает, что AUC является полусобственным правилом подсчета очков?

Правильное правило подсчета очков - это правило, которое максимизируется «истинной» моделью, и оно не позволяет «хеджировать» или разыгрывать систему (преднамеренно сообщая о различных результатах, как и истинное убеждение модели в улучшении оценки). Оценка Бриера правильная, точность (пропорция...

16
Современное состояние обучения на основе данных 69 года

Я пытаюсь понять контекст знаменитой книги Мински и Пейперта «Перцептроны» 1969 года, столь критичной для нейронных сетей. Насколько я знаю, не было никаких других общих алгоритмов обучения под наблюдением, за исключением персептрона: деревья решений начали становиться действительно полезными...

16
Коллинеарные переменные в обучении LDA Multiclass

Я тренирую многоклассный классификатор LDA с 8 классами данных. Во время обучения я получаю предупреждение: « Переменные коллинеарны » Я получаю точность обучения более 90% . Я использую библиотеку scikits-learn в Python, обучаю и проверяю данные мультикласса . Я также получаю приличную точность...

16
Как влияет увеличение данных обучения на общую точность системы?

Может ли кто-то резюмировать для меня возможные примеры, в каких ситуациях увеличение обучающих данных улучшает общую систему? Когда мы обнаружим, что добавление большего количества данных для обучения может привести к переопределению данных и не дать точных данных теста? Это очень неспецифичный...

16
Подготовка базового марковского случайного поля для классификации пикселей на изображении

Я пытаюсь научиться использовать случайные поля Маркова для сегментирования областей на изображении. Я не понимаю некоторые параметры в MRF или почему максимизация ожидания, которую я выполняю, иногда не сходится к решению. Исходя из теоремы Байеса, я имею , где y - значение серой шкалы пикселя, а...

16
В теории статистического обучения, нет ли проблемы переоснащения на тестовом наборе?

Давайте рассмотрим проблему классификации набора данных MNIST. Согласно веб -странице MNIST Яна ЛеКуна , «Ciresan et al.» получил 0,23% ошибок в тестовом наборе MNIST с использованием сверточной нейронной сети. Давайте обозначим обучающий набор MNIST как , тестовый набор MNIST как , окончательную...

16
Поиск в сетке по к-кратной перекрестной проверке

У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю...

16
Низкая точность классификации, что делать дальше?

Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил...

16
учебные подходы для сильно несбалансированного набора данных

У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня...

15
Статистическое сходство временных рядов

Предположим, у кого-то есть временной ряд, из которого можно выполнить различные измерения, такие как период, максимум, минимум, среднее и т. Д., А затем использовать их для создания модельной синусоидальной волны с такими же атрибутами. Существуют ли какие-либо статистические подходы, которые...

15
Увеличение числа функций приводит к снижению точности, но увеличению предварительного / повторного вызова

Я новичок в машинном обучении. В настоящее время я использую классификатор Наивного Байеса (NB), чтобы классифицировать небольшие тексты в 3 классах как положительные, отрицательные или нейтральные, используя NLTK и python. Проведя несколько тестов с набором данных, состоящим из 300 000 экземпляров...

15
Какой алгоритм статистической классификации может предсказать истину / ложь для последовательности входных данных?

Учитывая последовательность входов, мне нужно определить, обладает ли эта последовательность определенным желаемым свойством. Свойство может быть только истинным или ложным, то есть существует только два возможных класса, к которым может принадлежать последовательность. Точная связь между...

15
Что такое «базовый уровень» в кривой точного отзыва

Я пытаюсь понять точную кривую отзыва, я понимаю, что такое точность и отзыв, но не понимаю, что такое базовое значение. Я читал эту ссылку https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ и я не понимаю часть базовой линии, как показано в «Кривая точного...

15
Классификация с высокими показателями жира

Мне нужно обучить линейный классификатор на моем ноутбуке с сотнями тысяч точек данных и около десяти тысяч функций. Какие у меня варианты? Каково современное состояние для такого рода проблем? Кажется, что стохастический градиентный спуск является перспективным направлением, и я чувствую, что это...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

15
Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...

15
Интуиция для опорных векторных машин и гиперплоскости

В моем проекте я хочу создать модель логистической регрессии для прогнозирования двоичной классификации (1 или 0). У меня есть 15 переменных, 2 из которых являются категориальными, а остальные представляют собой смесь непрерывных и дискретных переменных. Чтобы соответствовать модели логистической...