Переоснащение / Подгонка с размером набора данных

11

На графике ниже

ось x => Размер набора данных
ось у => Оценка перекрестной проверки

Красная линия для данных обучения
Зеленая линия для тестирования данных

В учебнике, на который я ссылаюсь, автор говорит, что точка, где красная линия и зеленая линия перекрываются, означает,

Сбор большего количества данных вряд ли повысит производительность обобщения, и мы находимся в регионе, который, скорее всего, нам не подойдет. Поэтому имеет смысл попробовать с моделью с большей вместимостью

Я не совсем понимаю смысл смелой фразы и как это происходит.

Ценю любую помощь.

machine-learning cross-validation tharindu_DG
источник

Что такое красные и зеленые линии?

Касра Маншаи

1

@KasraManshaei: я обновил вопрос.

tharindu_DG

1

Если возможно, пожалуйста, добавьте ссылку на учебник.

Помогло

@ Dawny33: Это видеоурок, и его загрузка нарушит авторские права. :)

tharindu_DG

6

Таким образом, недостаточное оснащение означает, что у вас все еще есть возможность улучшить свое обучение, в то время как переоснащение означает, что вы использовали больше возможностей, чем необходимо для обучения.

Зеленая область - это место, где растет ошибка тестирования, т. Е. Вы должны продолжать предоставлять емкость (либо точки данных, либо сложность модели), чтобы получить лучшие результаты. Чем больше зеленая линия, тем более плоской она становится, т. Е. Вы достигаете точки, когда предоставленной емкости (которая является данными) достаточно и лучше попытаться предоставить другой тип емкости, который является сложностью модели.

Если это не улучшает ваш результат теста или даже уменьшает его, это означает, что комбинация сложности данных была как-то оптимальной, и вы можете прекратить тренировку.

Касра Маншаи
источник

Спасибо за ответ. У меня мало двусмысленностей. - В конце графика зеленая линия и красная линия сошлись. Разве это не значит, что у нас достаточно данных для нашей модели? - Можно ли получить лучшую точность из тестового набора, чем из тренировочного набора? - Допустим, мы получили лучшую модель и как должен выглядеть этот график?

tharindu_DG

1

«Разве это не значит, что у нас достаточно данных для нашей модели?» Это именно то, что я написал. Да, у вас достаточно данных, поэтому, если вы хотите улучшить, вы должны попробовать больше сложности. Данных достаточно. «Можно ли получить лучшую точность из тестового набора, чем из тренировочного набора?» Я никогда не видел такого. Это может произойти в одном эксперименте, но не в целом. Этот вопрос можно перевести как «Могу ли я знать больше, чем я знаю?» и ответ "Конечно, нет!"

Касра Маншаи

1

«Допустим, мы получили лучшую модель и как должен выглядеть этот график?» Я предполагаю (вы пытаетесь и дайте мне знать, если я прав :)), что либо тренировка и тестирование улучшаются, либо нет. Возможно, что тренировка улучшится, и тесты будут падать, но не наоборот, а также возможно, что оба улучшатся на некоторое время, а затем тест провалится, что называется перегрузкой. Вы должны прекратить тренировки в точке, где тестовая линия начинает падать

Kasra Manshaei

5

В то время как Касра Маншаи дает хороший общий ответ (+1), я хотел бы привести простой для понимания пример.

$f:[0, 1] \rightarrow \mathbb{R}$ underfit .

Итак, давайте по-другому: скажем, у вас есть 1000 точек данных. Зная немного математики, вы выбираете многочлен степени 999. Теперь вы можете идеально вписать данные тренировки. Однако ваши данные могут просто идеально соответствовать данным. Например, см. (Из моего блога )

В этом случае у вас есть другие модели, которые также идеально соответствуют данным. Очевидно, что синяя модель кажется неестественной между точками данных. Сама модель может быть не в состоянии хорошо отразить тип распределения, поэтому ограничение модели чем-то более простым может помочь. Это может быть примером переоснащения .

Мартин Тома
источник

1

Очень хороший @moose! (+1) для понимания объяснения

Касра Маншаи

0

В вашем случае у вас - очень маленький (или нет) разрыв между поездом и тестовыми кривыми, который указывает на то, что модель имеет высокий уклон / недостаточное соответствие, решение: необходимо выбрать более сложную модель; - для завершения необходимо добавить противоположный случай, когда разрыв между поездом и тестовыми кривыми очень велик, что указывает на высокую дисперсию / переоснащение, решения: а) продолжить увеличение размера набора данных; б) выбрать менее сложную модель, в) сделать регуляризацию.

Данил Жеребецкий
источник

0

Вы можете сделать любое / все из следующего:

1) изменить функции, которые вы вводите в модель

2) выбрать другую модель для работы

3) загрузить больше данных в модель (может быть не вариант для вас, но обычно это вариант)

ASH
источник

Переоснащение / Подгонка с размером набора данных

Ответы: