Предположим, что модель имеет 100% точность данных тренировки, но 70% точность данных теста. Правдив ли следующий аргумент в отношении этой модели?
Очевидно, что это переоборудованная модель. Точность испытания может быть повышена за счет уменьшения переоснащения. Но эта модель все еще может быть полезной моделью, поскольку она имеет приемлемую точность для данных испытаний.
model
accuracy
overfitting
Хоссейн
источник
источник
Ответы:
Я думаю, что аргумент правильный. Если 70% приемлемо в конкретном приложении, тогда модель полезна, даже если она переоснащена (в более общем случае, независимо от того, переизбрана она или нет).
В то время как балансирование переоснащения и недостаточного оснащения касается оптимальности (поиск оптимального решения), удовлетворительная производительность - это достаточность ( достаточно ли модель справляется с поставленной задачей?). Модель может быть достаточно хорошей, не будучи оптимальной.
Изменить: после комментариев Firebug и Мэтью Друри под ОП, я добавлю, что, чтобы судить, является ли модель переоснащена без знания производительности проверки может быть проблематичным. Firebug предлагает сравнить валидацию и производительность теста, чтобы измерить количество переоснащения. Тем не менее, когда модель обеспечивает 100% точность на тренировочном наборе, не обеспечивая 100% точности на тестовом наборе, это является индикатором возможного переоснащения (особенно в случае регрессии, но не обязательно при классификации).
источник
set.seed(100)
на примере, подобном описанному здесь явлению, иset.seed(15)
наоборот. Возможно, лучше сказать «показатель возможного переоснащения»В моем прошлом проекте с обнаружением мошенничества с кредитными картами мы намеренно хотели переписать данные / жестко запрограммированные, чтобы запомнить случаи мошенничества. (Обратите внимание, что переоснащение одного класса не совсем общая проблема переоснащения, о которой говорил OP.) Такая система имеет относительно низкий уровень ложных срабатываний и удовлетворяет наши потребности.
Так что, я бы сказал, в некоторых случаях может быть полезна переоборудованная модель.
источник
Может быть, будьте осторожны. Когда вы говорите, что точность в 70% (как бы вы ее ни измеряли) достаточно для вас, создается впечатление, что вы предполагаете, что ошибки распределяются случайным или равномерным образом.
Но один из способов взглянуть на переоснащение состоит в том, что это происходит, когда модельная техника позволяет (и ее процесс обучения поощряет) уделять слишком много внимания причудам в тренировочном наборе. Субъекты в общей популяции, которые разделяют эти причуды, могут иметь сильно несбалансированные результаты.
Поэтому, возможно, у вас получится модель, которая говорит, что у всех рыжих собак рак - из-за этой специфической особенности ваших тренировочных данных. Или что женатым людям в возрасте от 24 до 26 лет почти гарантировано подано мошенническое страховое возмещение. Ваша точность 70% оставляет много места для карманов предметов, чтобы быть на 100% неправильными, потому что ваша модель подходит.
(Отсутствие избыточной экипировки не является гарантией того, что у вас не будет карманов неправильных прогнозов. Фактически, модель с недостаточной подгонкой будет иметь множество плохих прогнозов, но с переобучением вы знаете, что вы усиливаете причуды в ваших тренировочных данных. .)
источник
Нет, они могут быть полезны, но это зависит от вашей цели. На ум приходит несколько вещей:
Такой классификатор может быть действительно полезным в ансамбле . Мы могли бы иметь один классификатор с нормальными весами, один, который перевешивает TPR, и тот, который перевешивает FNR. Тогда даже простое голосование по правилу трех или усреднение даст лучший AUC, чем любой лучший классификатор. Если в каждой модели используются разные гиперпараметры (или обучающие наборы с субдискретизацией, или модели архитектуры), это дает ансамблю некоторый иммунитет от переоснащения.
Точно так же для защиты от спама, мошенничества или кредитного скоринга в реальном времени хорошо и желательно использовать иерархию классификаторов. Классификаторы уровня 1 должны оценивать очень быстро (мс), и вполне нормально иметь высокий FPR ; любые ошибки, которые они совершат, будут обнаружены более точными, полнофункциональными, более медленными классификаторами более высокого уровня или, в конечном счете, рецензентами. Очевидный пример: не допускать, чтобы заголовки фальшивых новостей от поглощений аккаунта в Твиттере, такие как «Бомбардировка Белого дома в 2013 году, убивает троих», не повлияли бы на миллиарды долларов торговли в течение мс после публикации. Классификатор уровня 1 может пометить это как положительный для спама; допустим, потребуется некоторое время, чтобы (автоматически) определить истинность / ложность сенсационных, но непроверенных новостных сообщений.
источник
Я не отрицаю, что переоснащенная модель все еще может быть полезной. Но имейте в виду, что эти 70% могут вводить в заблуждение информацию. То, что вам нужно для того, чтобы судить, является ли модель полезной или нет, является ошибкой вне выборки , а не ошибкой тестирования ( из выборки неизвестна, поэтому мы должны оценить ее, используя слепой набор для тестирования ), и эти 70% - едва хорошее приближение.
Чтобы убедиться, что мы находимся на той же странице терминологии после комментария @RichardHardy, давайте определим ошибку тестирования как ошибку, полученную при применении модели в слепом тестовом наборе. А ошибка вне выборки - это ошибка при применении модели ко всей совокупности.
Аппроксимация ошибки вне выборки зависит от двух вещей: самой модели и данных.
«Оптимальная» модель дает (тестирование) точность, которая почти не зависит от данных, в этом случае это было бы хорошим приближением. «Независимо от» данных ошибка прогнозирования будет стабильной.
Но точность переопределенной модели сильно зависит от данных (как вы упомянули, 100% на тренировочном наборе и 70% на другом наборе). Так что может случиться так, что при применении к другому набору данных точность может быть где-то ниже 70% (или выше), и у нас могут быть неприятные сюрпризы. Другими словами, эти 70% говорят вам, что вы верите, но это не так.
источник