Я бы порекомендовал взглянуть на «7.10.2 Неправильный и правильный способ сделать перекрестную проверку» в http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Авторы приводят пример, в котором кто-то делает следующее:
- Скрининг предикторов: найдите подмножество «хороших» предикторов, которые показывают довольно сильную (одномерную) корреляцию с метками классов
- Используя только это подмножество предикторов, создайте многомерный классификатор.
- Используйте перекрестную проверку для оценки неизвестных параметров настройки и оценки ошибки прогнозирования окончательной модели.
Это звучит очень похоже на выполнение EDA на всех (т.е. обучение плюс тестирование) ваших данных и использование EDA для выбора «хороших» предикторов.
Авторы объясняют, почему это проблематично: перекрестная проверка частоты ошибок будет искусственно низкой, что может ввести вас в заблуждение, заставив вас думать, что вы нашли хорошую модель.
Применение EDA на тестовых данных неверно.
Обучение - это процесс поиска правильных ответов для создания лучшей модели. Этот процесс не ограничивается только запуском кода на обучающих данных. Использование информации из EDA, чтобы решить, какую модель использовать, настроить параметры и т. Д. Является частью процесса обучения и, следовательно, не должен иметь доступа к тестовым данным. Поэтому, чтобы быть верным себе, используйте тестовые данные только для проверки производительности вашей модели.
Кроме того, если вы понимаете, что модель не работает хорошо во время тестирования, а затем вы возвращаетесь к настройке модели, это тоже не хорошо. Вместо этого разделите ваши тренировочные данные на две части. Используйте один для обучения, а другой для тестирования и настройки ваших моделей. См. В чем разница между набором тестов и набором валидации?
источник
После абзаца этого ответа . Hastie далее объясняет с.245 :
источник
Вы делаете EDA на весь набор данных. Например, если вы используете несмываемый один выход перекрестной проверки, как бы вы EDA только на обучение набора данных? В этом случае каждое наблюдение тренируется и выдерживается хотя бы один раз.
Итак, нет, вы формируете свое понимание данных по всей выборке. Если вы находитесь в промышленной установке, это еще более очевидно. Ожидается, что вы покажете тенденции и общее описание данных заинтересованным сторонам в фирме, и вы сделаете это на всей выборке.
источник