Когда я читаю сайт, большинство ответов показывают, что перекрестная проверка должна выполняться в алгоритмах машинного обучения. Однако, когда я читал книгу «Понимание машинного обучения», я увидел, что есть упражнение, в котором иногда лучше не использовать перекрестную проверку. Я действительно смущен. Когда алгоритм обучения на всех данных лучше, чем перекрестная проверка? Это происходит в реальных наборах данных?
Пусть - k классов гипотез. Предположим , вы получаете IID подготовки примеров , и вы хотели бы узнать класс . Рассмотрим два альтернативных подхода: m H = ∪ k i = 1 H i
Изучите на примерах, используя правило ERMм
Разделите m примеров на обучающий набор размером и проверочный набор размера для некоторого . Затем примените подход выбора модели с использованием валидации. Таким образом, сначала обучите каждый класс на обучающих примерах, используя правило ERM относительно , и пусть будут результирующими гипотезами , Во-вторых, примените правило ERM в отношении конечного класса { } в примерах проверки .& alpha ; м & alpha ; ∈ ( 0 , 1 ) Н я ( 1 - & alpha ; ) м Н я ч 1 , ... , ч к ч 1 , ... , ч к & alpha ; м
Опишите сценарии, в которых первый метод лучше, чем второй, и наоборот.
Ответы:
Take-домой-сообщений:
Упражнение должно научить вас, что иногда (в зависимости от вашей области: часто или даже почти всегда) лучше не выполнять оптимизацию / настройку / выбор модели на основе данных.
Существуют также ситуации, когда перекрестная проверка не является наилучшим выбором среди различных вариантов проверки , но эти соображения не имеют значения в контексте вашего упражнения здесь.
К сожалению, текст, который вы цитируете, меняет две вещи между подходом 1 и 2:
ИМХО, перекрестная проверка и оптимизация на основе данных - это два совершенно разных (и в значительной степени независимых) решения при настройке стратегии моделирования. Только соединение является то , что вы можете использовать оценки кросс - проверки в качестве целевого функционала для оптимизации. Но существуют и другие целевые функционалы, готовые к использованию, и существуют другие способы использования перекрестных проверок (важно, что вы можете использовать их для проверки вашей модели, так называемой проверки или тестирования).
К сожалению, терминология машинного обучения ИМХО в настоящее время путаница, которая предлагает ложные связи / причины / зависимости здесь.
Когда вы посмотрите на подход 3 (перекрестная проверка не для оптимизации, а для измерения производительности модели), вы обнаружите, что перекрестная проверка «решение» в сравнении с обучением для всего набора данных является ложной дихотомией в этом контексте: при использовании перекрестной проверки для измерения эффективности классификатора, показатель качества перекрестной проверки используется в качестве оценки для модели, обученной на всем наборе данных. Т.е. подход 3 включает в себя подход 1.
Теперь давайте посмотрим на 2-е решение: оптимизация модели на основе данных или нет. Это ИМХО решающий момент здесь. И да, есть ситуации реального мира, когда лучше не проводить оптимизацию моделей на основе данных. Оптимизация данных на основе данных происходит за плату. Вы можете думать об этом так: информация в наборе данных используется для оценки не толькоp параметры / коэффициенты модели, но оптимизация делает оценку других параметров, так называемых гиперпараметров. Если вы описываете процесс подбора и оптимизации / настройки модели как поиск параметров модели, то эта оптимизация гиперпараметра означает, что рассматривается значительно большее пространство поиска. Другими словами, в подходе 1 (и 3) вы ограничиваете пространство поиска, указывая эти гиперпараметры. Ваш набор данных реального мира может быть достаточно большим (содержать достаточно информации), чтобы позволить вписаться в это ограниченное пространство поиска, но недостаточно большим, чтобы достаточно хорошо фиксировать все параметры в большем пространстве поиска подходов 2 (и 4).
Фактически, в моей области мне очень часто приходится иметь дело с наборами данных, которые слишком малы, чтобы можно было подумать об оптимизации на основе данных. Итак, что мне делать вместо этого: я использую свои знания предметной области о данных и процессах генерирования данных, чтобы решить, какая модель лучше соответствует физической природе данных и приложения. И в этих рамках мне все еще приходится ограничивать сложность моей модели.
источник