Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки наилучшей конфигурации гиперпараметра.
Насколько мне известно, этот результат является предвзятым, и они должны были сохранить отдельный набор тестов для получения оценки точности образцов, не используемых для оптимизации гиперпараметров.
Я прав? Можете ли вы предоставить некоторые ссылки (предпочтительно исследовательские работы), которые описывают это неправильное использование перекрестной проверки?
cross-validation
references
model-selection
model-evaluation
Даниэль Лопес
источник
источник
Ответы:
Да, есть проблемы с сообщением только о кратных результатах CV. Вы можете использовать, например, следующие три публикации для своих целей (хотя, конечно, есть и другие), чтобы указать людям правильное направление:
Varma & Simon (2006). «Смещение в оценке ошибки при использовании перекрестной проверки для выбора модели». BMC Биоинформатика , 7: 91
Cawley & Talbot (2010). «О переоснащении при выборе модели и последующем смещении выбора при оценке эффективности». Журнал исследований машинного обучения , 11: 2079-2107
Мне лично они нравятся, потому что они стараются излагать проблемы более простым языком, чем в математике.
источник