На графике ниже
- ось x => Размер набора данных
- ось у => Оценка перекрестной проверки
Красная линия для данных обучения
Зеленая линия для тестирования данных
В учебнике, на который я ссылаюсь, автор говорит, что точка, где красная линия и зеленая линия перекрываются, означает,
Сбор большего количества данных вряд ли повысит производительность обобщения, и мы находимся в регионе, который, скорее всего, нам не подойдет. Поэтому имеет смысл попробовать с моделью с большей вместимостью
Я не совсем понимаю смысл смелой фразы и как это происходит.
Ценю любую помощь.
machine-learning
cross-validation
tharindu_DG
источник
источник
Ответы:
Таким образом, недостаточное оснащение означает, что у вас все еще есть возможность улучшить свое обучение, в то время как переоснащение означает, что вы использовали больше возможностей, чем необходимо для обучения.
Зеленая область - это место, где растет ошибка тестирования, т. Е. Вы должны продолжать предоставлять емкость (либо точки данных, либо сложность модели), чтобы получить лучшие результаты. Чем больше зеленая линия, тем более плоской она становится, т. Е. Вы достигаете точки, когда предоставленной емкости (которая является данными) достаточно и лучше попытаться предоставить другой тип емкости, который является сложностью модели.
Если это не улучшает ваш результат теста или даже уменьшает его, это означает, что комбинация сложности данных была как-то оптимальной, и вы можете прекратить тренировку.
источник
В то время как Касра Маншаи дает хороший общий ответ (+1), я хотел бы привести простой для понимания пример.
Итак, давайте по-другому: скажем, у вас есть 1000 точек данных. Зная немного математики, вы выбираете многочлен степени 999. Теперь вы можете идеально вписать данные тренировки. Однако ваши данные могут просто идеально соответствовать данным. Например, см. (Из моего блога )
В этом случае у вас есть другие модели, которые также идеально соответствуют данным. Очевидно, что синяя модель кажется неестественной между точками данных. Сама модель может быть не в состоянии хорошо отразить тип распределения, поэтому ограничение модели чем-то более простым может помочь. Это может быть примером переоснащения .
источник
В вашем случае у вас - очень маленький (или нет) разрыв между поездом и тестовыми кривыми, который указывает на то, что модель имеет высокий уклон / недостаточное соответствие, решение: необходимо выбрать более сложную модель; - для завершения необходимо добавить противоположный случай, когда разрыв между поездом и тестовыми кривыми очень велик, что указывает на высокую дисперсию / переоснащение, решения: а) продолжить увеличение размера набора данных; б) выбрать менее сложную модель, в) сделать регуляризацию.
источник
Вы можете сделать любое / все из следующего:
1) изменить функции, которые вы вводите в модель
2) выбрать другую модель для работы
3) загрузить больше данных в модель (может быть не вариант для вас, но обычно это вариант)
источник