Является ли перекрестная проверка правильной заменой проверочного набора?

27

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца.

Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке классификаторов и функций. Это означает, что у меня нет отдельного набора проверки, но каждый раз из 10-кратного набора проверки выбирается автоматически.

После того, как я буду доволен всем и захочу перейти на заключительную стадию оценки, я буду тренировать свои классификаторы на всех 800 образцах. И тестирование на 150 образцах.

Правильно ли мое понимание такого использования перекрестной проверки в классификации текста? Является ли эта практика действительной?

Другой вопрос, касающийся перекрестной проверки:

вместо 10 раз я также попытался опустить один из них в качестве общего показателя эффективности. Поскольку для исключения одного невозможно получить информацию о f1 / Precision / Recall, мне интересно, какова взаимосвязь между точностью по принципу «вывести один» и метрикой из 10 раз?

Любые идеи будут высоко оценены.


Редактировать:

Это довольно хорошее введение в перекрестную проверку. Это также относится к другим исследовательским работам.

расслаиваться
источник
3
Оценки, оставленные без ответа, беспристрастны, в то время как перекрестная проверка в 10 раз будет иметь тенденцию давать смещения (в сторону снижения ошибок). Однако непредвзятость достигается ценой высокой дисперсии.
blubb
@ Симон, я думаю, это зависит от сложности проблемы. Не так ли?
Биостат
@blubb: LOO в определенных ситуациях может иметь большой пессимистический уклон. Дисперсия LOO и один прогон 10-кратного CV обычно очень похожи. Оптимистическая предвзятость (слишком низкие оценки погрешности) здесь обусловлена ​​не выбором повторной выборки, а тем фактом, что перекрестная проверка уже используется для оптимизации на основе данных. После этого требуется еще одна независимая проверка. Это также может быть «внешним» циклом перекрестной проверки (без оптимистического смещения!)
cbeleites поддерживает Monica

Ответы:

15

Вы действительно правильно описали способ работы с перекрестной проверкой. Фактически, вам «повезло», если в конце вы установили разумную валидацию, потому что часто перекрестная валидация используется для оптимизации модели, но «реальной» валидации не делается.

Как сказал @Simon Stelling в своем комментарии, перекрестная валидация приведет к снижению оценочных ошибок (что имеет смысл, потому что вы постоянно повторно используете данные), но, к счастью, это относится ко всем моделям, поэтому, исключая катастрофу (т.е. ошибки уменьшаются только немного для «плохой» модели и больше для «хорошей» модели), выбор модели, которая лучше всего работает по перекрестному проверенному критерию, обычно также будет лучшим «для реальной».

Метод, который иногда используется для некоторой коррекции для более низких ошибок, особенно если вы ищете экономные модели, заключается в выборе наименьшей модели / простейшего метода, для которого перекрестная проверка ошибки находится в пределах одного SD, из (перекрестного подтверждения) оптимума. Как и сама кросс-валидация, это эвристика, поэтому ее следует использовать с некоторой осторожностью (если это вариант: составьте график ваших ошибок в зависимости от параметров настройки: это даст вам представление о том, есть ли у вас приемлемые результаты)

Учитывая нисходящее смещение ошибок, важно не публиковать ошибки или другие показатели производительности от перекрестной проверки, не упоминая, что они происходят от перекрестной проверки (хотя, по правде говоря, я видел слишком много публикаций, в которых не упоминается, что мера производительности была получена из проверки производительности исходного набора данных - так что упоминание перекрестной проверки действительно делает ваши результаты более значимыми ). Для вас это не будет проблемой, так как у вас есть набор проверки.

Последнее предупреждение: если в результате подгонки вашей модели появятся какие-то близкие конкуренты, будет полезно посмотреть на их характеристики после проверки, но не основывайте на этом свой окончательный выбор модели: вы можете в лучшем случае использовать это, чтобы успокоить совесть, но ваша «окончательная» модель должна быть выбрана еще до того, как вы посмотрите на набор валидации.

В ответ на ваш второй вопрос: я полагаю, что Саймон дал вам все ответы, которые вам нужны, в своем комментарии, но чтобы завершить картину: как часто, это компромисс дисперсии, которая вступает в игру. Если вы знаете, что в среднем вы достигнете правильного результата (непредвзятости), цена, как правило, заключается в том, что каждый из ваших индивидуальных расчетов может лежать довольно далеко от него (высокая дисперсия). В старые времена беспристрастность была nec plus ultra, в нынешние дни иногда приходилось принимать (небольшое) смещение (поэтому вы даже не знаете, что среднее из ваших вычислений приведет к правильному результату), если оно приводит к снижению дисперсии. Опыт показал, что баланс приемлем с 10-кратным перекрестным подтверждением. Для вас смещение будет проблемой только для вашей модели оптимизации, так как вы можете оценить критерий впоследствии (беспристрастно) на проверочном наборе. Таким образом, нет оснований не использовать перекрестную проверку.

Ник Сабби
источник
«Но ваша« окончательная »модель должна быть выбрана до того, как вы посмотрите на набор проверки». Ницца.
Mooncrater