У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы успешно создали модель и применили ее на испытательном стенде, чтобы обнаружить, что производительность «ниже оптимальной». Теперь экспериментаторы хотят улучшить биологические тесты, чтобы создать лучшую модель. При условии, что мы не можем получить новые образцы, предложите ли вы нам переставить образцы для создания новых обучающих и проверочных наборов или придерживаться первоначального разделения. (У нас нет никаких признаков того, что разделение было проблематичным).
9
Ответы:
Поскольку вы уже используете несогласованный образец, я бы сказал, что вы должны сохранить его и построить свои новые модели на одном и том же обучающем образце, чтобы все модели учитывали одинаковые отношения между функциями. Кроме того, если вы выполняете выбор функции, образцы должны быть пропущены до любого из этих этапов фильтрации; то есть выбор функции должен быть включен в цикл перекрестной проверки.
Следует отметить, что для выбора модели существуют более мощные методы, чем разделение 0,67 / 0,33, а именно перекрестная проверка в k-кратном порядке или исключение из условия. См., Например, «Элементы статистического обучения» (§7.10, с. 241-248), www.modelselection.org или «Обзор процедур перекрестной проверки для выбора модели Арло и Селиссе» (требуется более сложный математический фон).
источник