Вопросы с тегом «cross-validation»

21
Должен ли я принимать решения на основе микро-усредненных или макро-усредненных мер оценки?

Я провел 10-кратную перекрестную проверку по различным алгоритмам двоичной классификации с одним и тем же набором данных и получил результаты, усредненные как на микро-, так и на макроуровне. Следует отметить, что это была проблема классификации по нескольким меткам. В моем случае истинные негативы...

21
Переоснащение: нет серебряной пули?

Насколько я понимаю, даже при соблюдении процедур перекрестной проверки и выбора модели может произойти переоснащение , если поискать модель будет достаточно сложно , если только он не налагает ограничения на сложность модели, период. Более того, часто люди пытаются узнать штрафы за сложность...

21
Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?

Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки...

21
Перекрестная проверка (обобщение ошибок) после выбора модели

Примечание: регистр n >> p Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием...

20
Как использовать функции перекрестной проверки scikit-learn в классификаторах с несколькими метками

Я тестирую разные классификаторы на наборе данных, где есть 5 классов, и каждый экземпляр может принадлежать одному или нескольким из этих классов, поэтому я использую, в частности, многокомпонентные классификаторы scikit-learn sklearn.multiclass.OneVsRestClassifier. Теперь я хочу выполнить...

20
Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

20
Насколько плоха настройка гиперпараметра вне перекрестной проверки?

Я знаю, что выполнение настройки гиперпараметра вне перекрестной проверки может привести к смещенно высоким оценкам внешней достоверности, потому что набор данных, который вы используете для измерения производительности, тот же, который вы использовали для настройки функций. Мне интересно,...

20
Перекрестная проверка и эмпирический байесовский метод оценки гиперпараметров

Учитывая иерархическую модель , я хочу двухэтапный процесс, чтобы соответствовать модели. Сначала исправьте несколько гиперпараметров , а затем сделайте байесовский вывод по остальным параметрам . Для фиксации гиперпараметров я рассматриваю два варианта.θ ϕp ( x | ϕ , θ...

20
Байесовское мышление о переоснащении

Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее...

20
Работает ли система Caret Train для glmnet перекрестной проверки как для альфы, так и для лямбды?

Является ли caretпакет R перекрестной проверки как для модели, так alphaи lambdaдля glmnetнее? Запуск этого кода, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x...

20
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации

Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе,...

20
K-кратная перекрестная проверка ансамблевого обучения

Я запутался в том, как разделить данные для k-кратной перекрестной проверки ансамблевого обучения. Предполагая, что у меня есть система обучения ансамбля для классификации. Мой первый слой содержит модели классификации, например, svm, деревья решений. Мой второй слой содержит модель голосования,...

20
Предупреждение libsvm «достижение максимального числа итераций» и перекрестная проверка

Я использую libsvm в режиме C-SVC с полиномиальным ядром степени 2, и мне необходимо обучить несколько SVM. Каждый тренировочный набор имеет 10 функций и 5000 векторов. Во время обучения я получаю это предупреждение для большинства SVM, которые я тренирую: WARNING: reaching max number of iterations...

19
Интервал прогнозирования на основе перекрестной проверки (CV)

В учебниках и лекциях на YouTube я много узнал об итерационных моделях, таких как бустинг, но я никогда не видел ничего о получении интервала прогнозирования. Перекрестная проверка используется для следующего: Выбор модели : попробуйте разные модели и выберите ту, которая подходит лучше всего. В...

19
Является ли настройка гиперпараметра на образце набора данных плохой идеей?

У меня есть набор данных из 140000 примеров и 30 функций, для которых я готовлю несколько классификаторов для двоичной классификации (SVM, логистическая регрессия, случайный лес и т. Д.) Во многих случаях настройка гиперпараметра для всего набора данных с использованием поиска по сетке или...

19
Устойчивость перекрестной проверки в байесовских моделях

Я подгоняю байесовский HLM в JAGS, используя перекрестную проверку в k-кратном порядке (k = 5). Я хотел бы знать, стабильны ли оценки параметра во всех сгибах. Какой лучший способ сделать это?ββ\beta Одна из идей состоит в том, чтобы найти различия исходных текстов и посмотреть, находится ли 0 в...

19
Может ли регуляризация быть полезной, если мы заинтересованы только в моделировании, а не в прогнозировании?

Может ли регуляризация быть полезной, если мы заинтересованы только в оценке (и интерпретации) параметров модели, а не в прогнозировании или прогнозировании? Я вижу, как регуляризация / перекрестная проверка чрезвычайно полезна, если ваша цель состоит в том, чтобы делать хорошие прогнозы на основе...

18
Сколько раз мы должны повторять K-кратное резюме?

Я наткнулся на эту тему, глядя на различия между начальной загрузкой и перекрестной проверкой - кстати, отличный ответ и ссылки. Что меня сейчас интересует, так это то, что если я должен был выполнить повторное 10-кратное CV, скажем, чтобы вычислить точность классификатора, сколько раз n я должен...

18
Вменение до или после разделения на поезд и тест?

У меня есть набор данных с N ~ 5000 и около 1/2 отсутствует по крайней мере по одной важной переменной. Основным аналитическим методом будет пропорциональный риск Кокса. Я планирую использовать множественное вменение. Я также буду разделяться на поезд и тестовый набор. Должен ли я разделять данные...