В «Элементах статистического обучения» я нашел следующее утверждение:
Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед началом перекрестной проверки. Поскольку эта фильтрация не включает метки классов, она не дает предикторам несправедливого преимущества.
Это действительно верно? Я имею в виду, что, предварительно фильтруя атрибуты, мы не имитируем обучающие данные / новую среду данных - значит ли это, что фильтрация, которую мы выполняем, не контролируется? Не лучше ли на самом деле выполнить все этапы предварительной обработки в процессе перекрестной проверки? Если это не так, то это означает, что вся неконтролируемая предварительная обработка может быть выполнена заранее, включая нормализацию функций / PCA и т. Д. Но, выполняя это для всего обучающего набора, мы фактически пропускаем некоторые данные в обучающий набор. Я могу согласиться с тем, что при относительно стабильном наборе данных эти различия, скорее всего, должны быть очень незначительными, но это не значит, что их не существует, верно? Как правильно думать об этом?
Я позволю себе не согласиться в этом вопросе с мнением @ AmiTavory, а также с элементами статистического обучения.
Исходя из прикладной области с очень маленькими размерами выборки, у меня есть опыт, что также неконтролируемые этапы предварительной обработки могут привести к серьезному смещению.
В моей области это было бы чаще всего PCA для уменьшения размерности перед обучением классификатора. Хотя я не могу показать данные здесь, я видел, что PCA + (перекрестная проверка LDA) и перекрестная проверка (PCA + LDA) недооценивают частоту ошибок примерно на порядок . (Обычно это показатель того, что PCA нестабилен.)
Что касается аргументации «несправедливого преимущества» Элементов, то при рассмотрении дисперсии тестов taining + мы получаем функции, которые хорошо работают как с обучающими, так и с тестовыми примерами. Таким образом, мы создаем самоисполняющееся пророчество, которое является причиной чрезмерного оптимизма. Этот уклон низкий, если у вас достаточно удобные размеры выборки.
Поэтому я рекомендую подход, который немного более консервативен, чем Элементы:
При этом перекрестная оценка также является лишь кратчайшим путем для проведения правильного валидационного исследования. Таким образом, вы можете поспорить с практичностью:
Вы можете проверить, дает ли рассматриваемая предварительная обработка стабильные результаты (вы можете сделать это, например, путем перекрестной проверки). Если вы найдете его совершенно стабильным уже с меньшими размерами выборки, ИМХО вы можете утверждать, что при выводе его из перекрестной проверки не будет большого смещения.
Однако, чтобы процитировать предыдущего руководителя: Время расчета не является научным аргументом.
Я часто провожу предварительный просмотр нескольких сгибов и нескольких итераций для перекрестной проверки, чтобы убедиться, что весь код (включая сводку / графики результатов), а затем оставляю его на ночь или на выходные или около того на сервере для более мелкозернистая перекрестная проверка.
источник