Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение?
Примечание: это для ситуации, когда #cases> total #features
Я преобразовываю некоторые из моих данных с помощью преобразования журнала, а затем нормализую все данные, как указано выше. Затем я выполняю выбор функций. Затем я применяю выбранные функции и нормализованные данные к повторной 10-кратной перекрестной проверке, чтобы попытаться оценить обобщенную производительность классификатора, и меня беспокоит, что использование всех данных для нормализации может быть нецелесообразным. Должен ли я нормализовать данные теста для каждого сгиба, используя нормализующие данные, полученные из данных тренировки для этого сгиба?
Любые мнения с благодарностью получены! Извиняюсь, если этот вопрос кажется очевидным.
Изменить: При тестировании этого (в соответствии с предложениями ниже) я обнаружил, что нормализация до CV не имеет большого значения с точки зрения производительности по сравнению с нормализацией в CV.
источник
Перекрестная проверка лучше всего рассматривать как метод оценки эффективности статистической процедуры, а не статистической модели. Таким образом, чтобы получить объективную оценку производительности, вам нужно повторять каждый элемент этой процедуры отдельно в каждом сгибе перекрестной проверки, что включает в себя нормализацию. Так что я бы сказал, нормализуется в каждом сгибе.
Единственный раз, когда в этом не было бы необходимости, это если бы статистическая процедура была полностью нечувствительна к масштабированию и среднему значению данных.
источник
Я думаю, что если нормализация включает в себя только два параметра и у вас выборка хорошего размера, это не будет проблемой. Я был бы больше обеспокоен преобразованием и процессом выбора переменных. 10-кратная перекрестная проверка кажется яростью сегодня. Разве никто не использует начальную загрузку 632 или 632+ для оценки частоты ошибок классификатора, как это было предложено сначала Эфроном (1983) в JASA, а затем - в статье Эфрона и Тибширани с 632+?
источник
Мне лично нравится метод .632. Который в основном стимулирует с заменой. Если вы сделаете это и удалите дубликаты, вы получите 632 записи из входного набора 1000. Вид аккуратный.
источник