Вопросы с тегом «cross-validation»

27

Является ли перекрестная проверка правильной заменой проверочного набора?

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке...

26

Внутренняя и внешняя перекрестная проверка и выбор модели

Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы: P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.) Стандартная...

estimation cross-validation references

26

Как можно эмпирически продемонстрировать в R, каким методам перекрестной проверки AIC и BIC эквивалентны?

В вопросе, приведенном в другом месте на этом сайте, в нескольких ответах упоминалось, что AIC эквивалентна перекрестной проверке с пропуском (LOO) и что BIC эквивалентна перекрестной проверке в K-кратном размере. Есть ли способ эмпирически продемонстрировать это в R так, чтобы методы,...

r aic cross-validation bic

25

Как вы используете тестовый набор данных после перекрестной проверки?

В некоторых лекциях и уроках, которые я видел, они предлагают разделить ваши данные на три части: обучение, проверка и тестирование. Но не ясно, как следует использовать набор тестовых данных, и как этот подход лучше, чем перекрестная проверка по всему набору данных. Допустим, мы сохранили 20%...

machine-learning cross-validation validation

25

10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения...

machine-learning cross-validation

25

Кривая ROC для дискретных классификаторов, таких как SVM: почему мы до сих пор называем это «кривой»? Разве это не просто «точка»?

В обсуждении: как создать кривую roc для бинарной классификации , я думаю, что путаница заключалась в том, что «двоичный классификатор» (который является любым классификатором, разделяющим 2 класса) был для Янга так называемым «дискретным классификатором» (который производит дискретные выходы 0/1...

cross-validation roc auc

25

Как работает перекрестная проверка без участия? Как выбрать окончательную модель из

У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает. Если я правильно понял LOOCV, я строю новую модель для...

cross-validation

24

Кто изобрел k-кратную перекрестную проверку?

Я ищу ссылку на статью, в которой была введена k-кратная перекрестная проверка (а не просто академическая справка по предмету). Возможно, это слишком далеко в глубине веков, чтобы однозначно определить самую первую статью, поэтому любые ранние статьи, в которых использовалась идея, были бы...

cross-validation references

24

Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое...

regression cross-validation regularization glmnet elastic-net

24

Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим...

machine-learning classification predictive-models cross-validation bootstrap

23

Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta +...

cross-validation

23

Какие распространенные модели прогнозирования можно рассматривать как особые случаи моделей ARIMA?

Этим утром я проснулся с удивлением (это могло быть связано с тем, что прошлой ночью я не выспался): поскольку перекрестная проверка, кажется, является краеугольным камнем правильного прогнозирования временных рядов, какие модели мне следует «обычно» "перекрестная проверка против? Я придумал...

time-series cross-validation arima

23

Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества /...

classification cross-validation

23

Когда применимы результаты Шао по кросс-проверке с пропуском?

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать...

classification model-selection cross-validation

23

AIC против перекрестной проверки во временных рядах: небольшой пример

Я заинтересован в выборе модели в настройке временных рядов. Для конкретности предположим, что я хочу выбрать модель ARMA из пула моделей ARMA с различными порядками запаздывания. Конечная цель - прогнозирование . Выбор модели может быть сделан перекрестная проверка, использование информационных...

time-series forecasting cross-validation model-selection aic

22

Выбор оптимального альфа в упругой сети логистической регрессии

Я выступаю упругую внутрисетевые логистическую регрессию по набору данных медико - санитарной помощи с использованием glmnetпакета в R путем выбора значения лямбды над сеткой αα\alpha от 0 до 1. Моего сокращенного кода ниже: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist,...

machine-learning cross-validation glmnet elastic-net

22

Лучший подход для выбора модели байесовской или перекрестной проверки?

При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на...

bayesian model-selection cross-validation feature-selection

22

Стабильность модели при решении большой проблемы , small

Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для...

regression cross-validation model-selection feature-selection elastic-net

22

Как следует сравнивать и / или проверять модели смешанных эффектов?

Как (линейные) модели смешанных эффектов обычно сравниваются друг с другом? Я знаю, что могут использоваться тесты отношения правдоподобия, но это не работает, если одна модель не является «подмножеством» другой, верно? Всегда ли оценка моделей df проста? Количество фиксированных эффектов +...

hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

22

Как разделить набор данных для прогнозирования временных рядов?

У меня есть исторические данные о продажах из пекарни (ежедневно, более 3 лет). Теперь я хочу построить модель для прогнозирования будущих продаж (используя такие функции, как день недели, переменные погоды и т. Д.). Как я должен разделить набор данных для подбора и оценки моделей? Должен ли он...

cross-validation partitioning