Вопросы с тегом «cross-validation»

27
Является ли перекрестная проверка правильной заменой проверочного набора?

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке...

26
Внутренняя и внешняя перекрестная проверка и выбор модели

Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы: P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.) Стандартная...

26
Как можно эмпирически продемонстрировать в R, каким методам перекрестной проверки AIC и BIC эквивалентны?

В вопросе, приведенном в другом месте на этом сайте, в нескольких ответах упоминалось, что AIC эквивалентна перекрестной проверке с пропуском (LOO) и что BIC эквивалентна перекрестной проверке в K-кратном размере. Есть ли способ эмпирически продемонстрировать это в R так, чтобы методы,...

25
Как вы используете тестовый набор данных после перекрестной проверки?

В некоторых лекциях и уроках, которые я видел, они предлагают разделить ваши данные на три части: обучение, проверка и тестирование. Но не ясно, как следует использовать набор тестовых данных, и как этот подход лучше, чем перекрестная проверка по всему набору данных. Допустим, мы сохранили 20%...

25
10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения...

25
Кривая ROC для дискретных классификаторов, таких как SVM: почему мы до сих пор называем это «кривой»? Разве это не просто «точка»?

В обсуждении: как создать кривую roc для бинарной классификации , я думаю, что путаница заключалась в том, что «двоичный классификатор» (который является любым классификатором, разделяющим 2 класса) был для Янга так называемым «дискретным классификатором» (который производит дискретные выходы 0/1...

25
Как работает перекрестная проверка без участия? Как выбрать окончательную модель из

У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает. Если я правильно понял LOOCV, я строю новую модель для...

24
Кто изобрел k-кратную перекрестную проверку?

Я ищу ссылку на статью, в которой была введена k-кратная перекрестная проверка (а не просто академическая справка по предмету). Возможно, это слишком далеко в глубине веков, чтобы однозначно определить самую первую статью, поэтому любые ранние статьи, в которых использовалась идея, были бы...

24
Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое...

24
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим...

23
Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta +...

23
Какие распространенные модели прогнозирования можно рассматривать как особые случаи моделей ARIMA?

Этим утром я проснулся с удивлением (это могло быть связано с тем, что прошлой ночью я не выспался): поскольку перекрестная проверка, кажется, является краеугольным камнем правильного прогнозирования временных рядов, какие модели мне следует «обычно» "перекрестная проверка против? Я придумал...

23
Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества /...

23
Когда применимы результаты Шао по кросс-проверке с пропуском?

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать...

23
AIC против перекрестной проверки во временных рядах: небольшой пример

Я заинтересован в выборе модели в настройке временных рядов. Для конкретности предположим, что я хочу выбрать модель ARMA из пула моделей ARMA с различными порядками запаздывания. Конечная цель - прогнозирование . Выбор модели может быть сделан перекрестная проверка, использование информационных...

22
Выбор оптимального альфа в упругой сети логистической регрессии

Я выступаю упругую внутрисетевые логистическую регрессию по набору данных медико - санитарной помощи с использованием glmnetпакета в R путем выбора значения лямбды над сеткой αα\alpha от 0 до 1. Моего сокращенного кода ниже: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist,...

22
Лучший подход для выбора модели байесовской или перекрестной проверки?

При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на...

22
Стабильность модели при решении большой проблемы , small

Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для...

22
Как следует сравнивать и / или проверять модели смешанных эффектов?

Как (линейные) модели смешанных эффектов обычно сравниваются друг с другом? Я знаю, что могут использоваться тесты отношения правдоподобия, но это не работает, если одна модель не является «подмножеством» другой, верно? Всегда ли оценка моделей df проста? Количество фиксированных эффектов +...

22
Как разделить набор данных для прогнозирования временных рядов?

У меня есть исторические данные о продажах из пекарни (ежедневно, более 3 лет). Теперь я хочу построить модель для прогнозирования будущих продаж (используя такие функции, как день недели, переменные погоды и т. Д.). Как я должен разделить набор данных для подбора и оценки моделей? Должен ли он...