У меня есть набор данных из 120 образцов в 10-кратной перекрестной проверке. В настоящее время я выбираю обучающие данные первого удержания и делаю 5-кратную перекрестную проверку для этого, чтобы выбрать значения гаммы и C с помощью поиска по сетке. Я использую SVM с ядром RBF. Так как я делаю перекрестную проверку 10 10, чтобы сообщить о точности, вспомните, выполняю ли я этот поиск по сетке в данных тренировки каждой задержки (есть 10 задержек, каждая из которых содержит 10% тестовых и 90% тренировочных данных)? Разве это не будет слишком много времени?
Если я использую гамму и C первого удержания и использую его для остальных 9 удерживаний k-кратной перекрестной проверки, является ли это нарушением, потому что я бы использовал данные поезда для получения гаммы и C и снова использовал бы часть данных поезда в качестве теста во второй раздаче?
Ответы:
Да, это было бы нарушением, поскольку данные испытаний для сгибов 2-10 внешней перекрестной проверки были бы частью обучающих данных для сгиба 1, которые использовались для определения значений ядра и параметров регуляризации. Это означает, что некоторая информация о тестовых данных потенциально просочилась в дизайн модели, что потенциально дает оптимистический уклон оценке производительности, которая наиболее оптимистична для моделей, которые очень чувствительны к настройке гиперпараметров (т.е. это наиболее сильно отдает предпочтение моделям с нежелательной функцией).
Это смещение, вероятно, будет самым сильным для небольших наборов данных, таких как этот, так как дисперсия критерия выбора модели является наибольшей для небольших наборов данных, что способствует чрезмерному соответствию критерию выбора модели, что означает, что может быть утечка большей информации о тестовых данных через.
Я написал статью об этом год или два назад, так как я был довольно поражен величиной отклонения от полной вложенной перекрестной проверки, которая может легко перекрыть разницу в производительности между системами классификаторов. Статья «О переоснащении при выборе модели и последующем смещении выбора при оценке эффективности» Гэвин К. Коули, Никола Л. К. Тэлбот; JMLR 11 (июль): 2079-2107, 2010.
По сути, настройка гиперпараметров должна рассматриваться как неотъемлемая часть подбора модели, поэтому каждый раз, когда вы тренируете SVM на новой выборке данных, независимо настраивайте гиперпараметры для этой выборки. Если вы следуете этому правилу, вы, вероятно, не ошибетесь. Чтобы получить объективную оценку производительности, стоит потратить вычислительные средства, так как в противном случае вы рискуете сделать неверные выводы из своего эксперимента.
источник
Выполнив поиск по сетке для каждой суррогатной модели, вы можете и должны проверить несколько вещей:
Если внутренняя (то есть настраиваемая) перекрестная проверка выглядит намного лучше, чем внешняя (проверка окончательной модели), то у вас тоже проблемы: вы перегружены. Существует значительный риск того, что настроенные параметры не являются оптимальными вообще. Однако, если внешняя перекрестная проверка выполняется правильно (все тестовые наборы действительно независимы от соответствующих суррогатных моделей), то, по крайней мере, у вас все еще будет объективная (!) Оценка производительности модели. Но вы не можете быть уверены, что это оптимально.
Существует много сказать о переоснащении по выбору модели. Тем не менее, следует иметь в виду, что как дисперсия, так и оптимистический уклон могут действительно повредить
Если вам интересен пример и вы можете читать по-немецки, я мог бы опубликовать свою дипломную работу в Интернете.
По моему опыту, настройка гиперпараметров является чрезвычайно эффективной идеей для переоснащения ...
Теперь, если вы понимаете, что переоснащаете себя, у вас есть в основном два варианта:
В качестве альтернативы настройке гиперпараметров для каждого тренировочного набора, вы можете предварительно указать (гипер) параметры (т.е. исправить их заранее). Я делаю это как можно больше для своих моделей, так как у меня обычно бывает еще меньше случаев, чем у вас, см. Ниже.
Тем не менее, это исправление должно действительно и честно быть сделано заранее: например, я попросил коллегу его оптимизированные параметры на подобном наборе данных (независимый эксперимент) или сделал предварительный эксперимент, включая поиск в сетке по параметрам. Этот первый эксперимент затем используется для определения некоторых экспериментальных параметров, а также параметров модели для реального эксперимента и анализа данных. Смотрите ниже для дальнейших объяснений.
Конечно, можно провести правильное тестирование на автоматически оптимизированных моделях (двойная или вложенная проверка), но размер вашей выборки может не позволить разбить данные дважды .
В этой ситуации, ИМХО, гораздо лучше сообщить достоверную оценку модели, которая была построена с использованием профессионального опыта выбора параметров моделирования, чем сообщать о чрезмерно оптимистической оценке какой-либо автоматически оптимизированной модели.
Еще одна точка зрения на ситуацию заключается в том, что вы должны пойти на компромисс
Некоторые похожие мысли по похожему вопросу: /stats//a/27761/4598
О фиксации параметров и комментариях Дикрана Марсупиала
Я использую термин гиперпараметры, как Дикран Марсупиал использует его в своей статье (ссылка в его ответе)
Я работаю со спектроскопическими данными. Это своего рода измерение, когда анализ и моделирование данных часто включает в себя довольно много предварительной обработки. Это можно рассматривать как гиперпараметры (например, какой порядок полинома следует использовать для базовой линии? Какие каналы измерения следует включить?). Есть другие решения, которые ближе к вашим параметрам SVM, например, сколько основных компонентов использовать, если PCA делается для уменьшения размерности до обучения «реальной» модели? И иногда я также использую классификацию SVM, поэтому мне приходится выбирать параметры SVM.
Теперь, IMHO, лучший способ исправить гиперпараметры, если у вас есть причины, которые приходят из приложения. Например, я обычно решаю, какую базовую линию использовать по физическим / химическим / биологическим причинам (т. Е. Знание об образце и спектроскопическом поведении, которое следует из этого). Тем не менее, я не знаю такой аргументации, которая помогает с параметрами SVM ...
Случай предварительных экспериментов, о которых я упоминал выше, выглядит следующим образом:
Спектры анализируются, запускается повторная двойная перекрестная проверка SVM (провел ночь или две на вычислительном сервере).
Мой вывод таков: хотя я не могу быть уверен, что окончательные гиперпараметры являются оптимальными, внешняя перекрестная проверка дает мне правильную оценку эффективности суррогатных моделей.
Во время экспериментальной части мы определили некоторые изменения в экспериментальной установке (вещи, которые не влияют на сигнал-шум данных, но делают еще один шаг вперед в автоматизации прибора)
Мы улучшаем экспериментальные настройки и приобретаем новые спектры. Как клетки, они должны быть выращены в свежем виде. Т.е. новый набор данных - это даже независимые партии культур.
Теперь я сталкиваюсь с решением: должен ли я «пропустить» внутреннюю перекрестную проверку и просто использовать гиперпараметры, которые я определил для старых данных?
Поэтому в этом случае я решил использовать фиксированные параметры (исходя из опыта работы с аналогичными данными и зная, что в будущем нам придется выполнять нашу «домашнюю работу», включая, среди прочего, повторную проверку этих решений с большими данными).
Обратите внимание, что важно то, что я пропускаю внутреннюю ( настройка перекрестной проверки), а не внешнюю. С фиксированными гиперпараметрами я получаю объективную оценку производительности возможно субоптимальной модели. Это правда, что эта оценка подвержена высокой дисперсии, но эта разница в основном одинакова, независимо от того, занимаюсь я внутренней настройкой или нет.
Пропустив внешнюю перекрестную проверку, я получил бы оптимистически предвзятую оценку настроенной модели, которая в зависимости от приложения и данных может быть бесполезной (если очень чрезмерно оптимистичной), а оптимистическая предвзятость может быть явно неприемлемой.
источник
Я думаю, что ключевым является поиск некоторой плавности на поверхности вокруг локальных минимумов (или каждой 1-мерной проекции), а не просто принятие глобального минимума.
источник