Вопросы с тегом «validation»

27
Является ли перекрестная проверка правильной заменой проверочного набора?

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке...

27
Оценка дисперсии в k-кратной перекрестной проверке

K-кратная перекрестная проверка может использоваться для оценки возможности обобщения данного классификатора. Могу ли я (или я должен) также вычислить объединенную дисперсию из всех проверочных прогонов, чтобы получить лучшую оценку ее дисперсии? Если нет, то почему? Я нашел документы, в которых...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

27
Почему существует асимметрия между этапом обучения и этапом оценки?

Хорошо известно, особенно в обработке естественного языка, что машинное обучение должно проходить в два этапа, этап обучения и этап оценки, и они должны использовать разные данные. Почему это? Интуитивно понятно, что этот процесс помогает избежать перегрузки данных, но я не вижу...

26
Внутренняя и внешняя перекрестная проверка и выбор модели

Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы: P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.) Стандартная...

26
Как можно эмпирически продемонстрировать в R, каким методам перекрестной проверки AIC и BIC эквивалентны?

В вопросе, приведенном в другом месте на этом сайте, в нескольких ответах упоминалось, что AIC эквивалентна перекрестной проверке с пропуском (LOO) и что BIC эквивалентна перекрестной проверке в K-кратном размере. Есть ли способ эмпирически продемонстрировать это в R так, чтобы методы,...

25
Как работает перекрестная проверка без участия? Как выбрать окончательную модель из

У меня есть некоторые данные, и я хочу построить модель (скажем, модель линейной регрессии) из этих данных. На следующем шаге я хочу применить к модели перекрестную проверку Leave-One-Out (LOOCV), чтобы увидеть, насколько хорошо она работает. Если я правильно понял LOOCV, я строю новую модель для...

25
10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения...

25
Кривая ROC для дискретных классификаторов, таких как SVM: почему мы до сих пор называем это «кривой»? Разве это не просто «точка»?

В обсуждении: как создать кривую roc для бинарной классификации , я думаю, что путаница заключалась в том, что «двоичный классификатор» (который является любым классификатором, разделяющим 2 класса) был для Янга так называемым «дискретным классификатором» (который производит дискретные выходы 0/1...

25
Как вы используете тестовый набор данных после перекрестной проверки?

В некоторых лекциях и уроках, которые я видел, они предлагают разделить ваши данные на три части: обучение, проверка и тестирование. Но не ясно, как следует использовать набор тестовых данных, и как этот подход лучше, чем перекрестная проверка по всему набору данных. Допустим, мы сохранили 20%...

24
Кто изобрел k-кратную перекрестную проверку?

Я ищу ссылку на статью, в которой была введена k-кратная перекрестная проверка (а не просто академическая справка по предмету). Возможно, это слишком далеко в глубине веков, чтобы однозначно определить самую первую статью, поэтому любые ранние статьи, в которых использовалась идея, были бы...

24
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим...

24
Почему лямбда «в пределах одной стандартной ошибки от минимума» является рекомендованным значением для лямбда в упругой чистой регрессии?

Я понимаю, какую роль играет лямбда в регрессии эластичной сети. И я могу понять, почему можно выбрать lambda.min, значение лямбды, которое минимизирует перекрестную проверку. Мой вопрос: где в статистической литературе рекомендуется использовать lambda.1se, то есть значение lambda, которое...

23
Как рецензент, могу ли я оправдать запрос данных и кода доступными, даже если журнал этого не делает?

Поскольку наука должна быть воспроизводимой, по определению растет признание того, что данные и код являются важным компонентом воспроизводимости, как обсуждалось на круглом столе в Йельском университете для совместного использования данных и кода . При рассмотрении рукописи для журнала, который не...

23
Должна ли окончательная (готовая к производству) модель обучаться на полных данных или только на тренировочном наборе?

Предположим, я обучил несколько моделей на тренировочном наборе, выбрал лучшую, используя набор перекрестной проверки, и измерил производительность на тестовом наборе. Так что теперь у меня есть одна последняя лучшая модель. Должен ли я переучивать его на всех имеющихся у меня данных или судовом...

23
Когда применимы результаты Шао по кросс-проверке с пропуском?

В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать...

23
Перекрестная проверка (CV) и обобщенная статистика перекрестной проверки (GCV)

Я обнаружил, возможно, противоречивые определения для статистики перекрестной проверки (CV) и для статистики обобщенной перекрестной проверки (GCV), связанной с линейной моделью (с нормальным гомоскедастическим вектором ошибок ).εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta +...

23
Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?

Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества /...

23
AIC против перекрестной проверки во временных рядах: небольшой пример

Я заинтересован в выборе модели в настройке временных рядов. Для конкретности предположим, что я хочу выбрать модель ARMA из пула моделей ARMA с различными порядками запаздывания. Конечная цель - прогнозирование . Выбор модели может быть сделан перекрестная проверка, использование информационных...

23
Какие распространенные модели прогнозирования можно рассматривать как особые случаи моделей ARIMA?

Этим утром я проснулся с удивлением (это могло быть связано с тем, что прошлой ночью я не выспался): поскольку перекрестная проверка, кажется, является краеугольным камнем правильного прогнозирования временных рядов, какие модели мне следует «обычно» "перекрестная проверка против? Я придумал...