Я делаю классификацию изображений с использованием машинного обучения.
Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных поворотов и введения шума. Увеличение сделано в автономном режиме.
Какой правильный способ сделать увеличение данных?
Сначала разбейте данные на обучающие и проверочные наборы, затем выполните увеличение данных как на обучающих, так и проверочных наборах.
Сначала разбейте данные на обучающие и проверочные наборы, затем увеличивайте данные только на обучающем наборе.
Сначала выполните увеличение данных на данных, затем разделите данные на набор для обучения и проверки.
Ответы:
Сначала разбейте данные на обучающие и проверочные наборы, затем выполните увеличение данных на обучающем наборе.
Вы используете свой набор проверки, чтобы попытаться оценить, как ваш метод работает с данными реального мира, поэтому он должен содержать только данные реального мира. Добавление дополненных данных не улучшит точность проверки. Это в лучшем случае скажет что-то о том, насколько хорошо ваш метод реагирует на увеличение данных, а в худшем случае испортит результаты проверки и интерпретируемость.
источник
никогда не делайте 3, так как вы получите утечку. например, предположим, что увеличение - это сдвиг на 1 пиксель влево. если разделение не учитывает увеличение, вы можете получить очень похожие образцы данных как при обучении, так и при проверке.
источник
Увеличение данных означает добавление внешних данных / информации к существующим данным, которые анализируются.
Таким образом, поскольку все дополненные данные будут использоваться для машинного обучения, лучше подойдет следующий процесс:
источник