Вопросы с тегом «classification»

23
Когда применимы результаты Шао по кросс-проверке с пропуском?

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать...

23
Альтернативы деревьям классификации, с лучшей прогностической (например, CV) эффективностью?

Я ищу альтернативу деревьям классификации, которая могла бы дать лучшую предсказательную силу. Данные, с которыми я имею дело, имеют факторы как для объясняющих, так и для объясненных переменных. Я помню, что сталкивался со случайными лесами и нейронными сетями в этом контексте, хотя никогда не...

23
В чем разница между функцией потерь и функцией принятия решений?

Я вижу, что обе функции являются частью методов интеллектуального анализа данных, таких как Gradient Boosting Regressors. Я вижу, что это тоже отдельные объекты. Каковы отношения между обоими в...

23
Точность теста выше, чем обучение. Как интерпретировать?

У меня есть набор данных, содержащий не более 150 примеров (разделенных на обучение и тестирование) со многими функциями (более 1000). Мне нужно сравнить классификаторы и методы выбора функций, которые хорошо работают с данными. Итак, я использую три метода классификации (J48, NB, SVM) и 2 метода...

23
Визуализация калибровки прогнозируемой вероятности модели

Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую ​​модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC...

23
Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества /...

23
Как справиться с разницей между распределением тестового набора и обучающего набора?

Я думаю, что одно из основных предположений о машинном обучении или оценке параметров заключается в том, что невидимые данные поступают из того же распределения, что и обучающий набор. Однако в некоторых практических случаях распределение тестового набора будет практически отличаться от учебного...

22
Классификационные / оценочные показатели для сильно несбалансированных данных

Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных...

22
Контролируемая кластеризация или классификация?

Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»? Об этом много ссылок:...

22
Ограниченные машины Больцмана против многослойных нейронных сетей

Я давно хотел поэкспериментировать с нейронной сетью для решения проблемы классификации, с которой я столкнулся. Я столкнулся с бумагами, которые говорят о УКР. Но из того, что я могу понять, они ничем не отличаются от наличия многослойной нейронной сети. Это точно? Более того, я работаю с R и не...

22
интерпретация оси Y частичной зависимости графиков

Этот вопрос был перенесен из переполнения стека, потому что на него можно ответить по перекрестной проверке. Мигрировал 5 лет назад . Я читал другие темы о графиках частичной зависимости, и большинство из них касаются того, как вы на самом деле строите их с помощью разных пакетов, а не того, как...

22
Выбор среди правильных правил подсчета очков

В большинстве ресурсов о правильных правилах оценки упоминается ряд различных правил оценки, таких как потеря журнала, оценка Бриера или сферическая оценка. Тем не менее, они часто не дают больших указаний на различия между ними. (Приложение A: Википедия .) Выбор модели, которая максимизирует...

21
Сверточная нейронная сеть для временных рядов?

Я хотел бы знать, существует ли код для обучения сверточной нейронной сети для классификации временных рядов. Я видел несколько недавних работ ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ), но я не уверен, существует ли что-то или я должен написать это...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

21
Как контролировать стоимость ошибочной классификации в случайных лесах?

Можно ли контролировать стоимость ошибочной классификации в пакете R randomForest ? В моей собственной работе ложные отрицания (например, отсутствие по ошибке того, что у человека может быть заболевание) намного дороже ложных срабатываний. Пакет rpart позволяет пользователю контролировать затраты...

21
От правила персептрона к градиентному спуску: чем отличаются перцептроны с функцией активации сигмовидной кишки от логистической регрессии?

По сути, мой вопрос заключается в том, что в многослойных персептронах персептроны используются с сигмовидной активационной функцией. Так что в правиле обновления у вычисляется какY^Y^\hat{y} Y^= 11 + опыт( - шTИкся)Y^знак равно11+ехр⁡(-весTИкся)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}...

21
Как правильно проверить значимость результатов классификации

Есть много ситуаций, когда вы можете обучить несколько разных классификаторов или использовать несколько разных методов извлечения признаков. В литературе авторы часто приводят среднюю ошибку классификации по набору случайных разбиений данных (т. Е. После дважды вложенной перекрестной проверки), а...

21
Почему решение наименьших квадратов дает плохие результаты в этом случае?

На странице 204 в главе 4 «Распознавание образов и машинное обучение» Бишопа есть изображение, где я не понимаю, почему решение по методу наименьших квадратов дает плохие результаты: Предыдущий абзац был о том факте, что решениям наименьших квадратов не хватает устойчивости к выбросам, как вы...

21
Добавление весов к логистической регрессии для несбалансированных данных

Я хочу смоделировать логистическую регрессию с несбалансированными данными (9: 1). Я хотел попробовать опцию весов в glmфункции в R, но я не уверен на 100%, что она делает. Допустим , моя переменная выход c(0,0,0,0,0,0,0,0,0,1). Теперь я хочу дать «1» в 10 раз больше веса. поэтому я даю весовой...

20
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации

Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе,...