Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

136
Выбор K в K-кратной перекрестной проверке

Я использую в -кратной перекрестной проверки несколько раз сейчас , чтобы оценить производительность некоторых алгоритмов обучения, но я всегда был озадачен о том , как я должен выбрать значение .КKКKKКK Я часто видел и использовал значение , но мне это кажется совершенно произвольным, и теперь я...

131
Каппа Коэна на простом английском

Я читаю книгу по интеллектуальному анализу данных, в которой упоминается статистика Каппа как средство оценки эффективности прогнозирования классификаторов. Однако я просто не могу этого понять. Я также проверил Википедию, но это тоже не помогло: https://en.wikipedia.org/wiki/Cohen's_kappa . Как...

107
Почему точность не является наилучшей мерой для оценки моделей классификации?

Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной»...

92
Как вы рассчитываете точность и вспоминаете для мультиклассовой классификации, используя путаницу?

Интересно, как вычислить точность и вспомнить использование путаницы для решения задачи классификации нескольких классов. В частности, наблюдение может быть назначено только его наиболее вероятному классу / метке. Я хотел бы вычислить: Точность = TP / (TP + FP) Напомним = TP / (TP + FN) для каждого...

78
Как вручную вычислить площадь под кривой (AUC) или c-статистику

Меня интересует вычисление площади под кривой (AUC) или c-статистика вручную для бинарной модели логистической регрессии. Например, в наборе данных проверки у меня есть истинное значение для зависимой переменной, сохранение (1 = сохранено; 0 = не сохранено), а также прогнозируемое состояние...

77
Как получить симпатичный график результатов кластерного анализа k-средних?

Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...

76
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...

76
Помогите мне понять опорные векторные машины

Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал...

75
Лучший способ представить случайный лес в публикации?

Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для...

75
Почему логистическая регрессия не называется логистической классификацией?

Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными...

73
Почему нейронные сети становятся глубже, а не шире?

В последние годы сверточные нейронные сети (или, возможно, глубокие нейронные сети в целом) стали глубже и глубже: современные сети переходят от 7 уровней ( AlexNet ) до 1000 слоев ( остаточных сетей) в пространстве 4 года. Причиной повышения производительности в более глубокой сети является то,...

72
Как вычислить точность / отзыв для классификации мультикласса и мультиметки?

Мне интересно, как рассчитать точность и вспомнить меры для мультиклассовой классификации с несколькими метками, то есть классификации, где существует более двух меток, и где каждый экземпляр может иметь несколько...

63
Softmax против сигмоидальной функции в логистическом классификаторе?

От чего зависит выбор функции (Softmax vs Sigmoid) в классификаторе логистики? Предположим, есть 4 выходных класса. Каждая из вышеприведенных функций дает вероятности того, что каждый класс является правильным выводом. Так какой же взять за...

60
Как я могу гарантировать, что данные тестирования не попадут в данные обучения?

Предположим, у нас есть кто-то, строящий прогностическую модель, но он не обязательно хорошо разбирается в надлежащих статистических или машинных принципах обучения. Может быть, мы помогаем этому человеку, когда он учится, или, возможно, этот человек использует какой-то пакет программного...

55
Альтернативы логистической регрессии в R

Мне бы хотелось, чтобы столько алгоритмов выполняли ту же задачу, что и логистическая регрессия. Это алгоритмы / модели, которые могут дать прогноз двоичного ответа (Y) с некоторой пояснительной переменной (X). Я был бы рад, если после того, как вы назовете алгоритм, если вы также покажете, как...

53
Когда несбалансированные данные действительно являются проблемой в машинном обучении?

У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо...

52
Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что в этой...