Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы:
P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой
P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.)
Стандартная практика, как представляется, заключается в проведении повторной перекрестной проверки, поскольку это уменьшает дисперсию нашей оценки.
Однако, когда дело доходит до отчетности и анализа, я понимаю, что внутренняя проверка лучше, чем внешняя проверка, потому что:
Лучше сообщить:
- Статистика нашего оценщика, например, его доверительный интервал, дисперсия, среднее и т. Д. Для полной выборки (в данном случае выборка CV).
чем отчетность:
Потеря нашей оценки на удерживающем подмножестве исходного образца, так как:
(i) Это будет одно измерение ( даже если мы выберем нашу оценку с CV )
(ii) Наш оценщик для этого отдельного измерения был бы обучен на наборе (например, наборе CV), который меньше, чем наш начальный образец, так как мы должны освободить место для набора удержания. Это приводит к более смещенной (пессимистичной) оценке в P1 .
Это верно? Если нет, то почему?
Задний план:
Легко найти учебники, которые рекомендуют разделить ваш образец на два набора:
- Набор CV , который впоследствии и многократно делится на наборы обучения и проверки .
- Удерживающий из (теста) набор, используется только в конце , чтобы сообщить об эффективности оценивания
Мой вопрос - попытка понять достоинства и преимущества этого учебного подхода, учитывая, что наша цель - действительно решить проблемы P1 и P2 в начале этого поста. Мне кажется, что составление отчетов о тесте на вынос - плохая практика, так как анализ образца резюме более информативен.
Вложенный K-сгиб против повторного K-сгиба:
В принципе можно объединить удержание с обычным K-сгибом, чтобы получить вложенный K-сгиб . Это позволило бы нам измерить изменчивость нашей оценки, но мне кажется, что для того же числа всех обученных моделей (общее количество сгибов) повторное K-кратное вычисление даст оценки, которые менее смещены и более точны, чем вложенные K- фолд. Чтобы увидеть это:
- Повторный K-кратный использует большую долю нашей общей выборки, чем вложенный K-кратный для того же K (т.е. это приводит к более низкому смещению)
- 100 итераций дадут только 10 измерений нашей оценки во вложенном K-кратном (K = 10), но 100 измерений в K-кратном (чем больше измерений, тем меньше дисперсия в P2 )
Что не так с этим рассуждением?
источник
Ответы:
Позвольте мне добавить несколько моментов к хорошим ответам, которые уже здесь:
Вложенный K-сгиб против повторного K-сгиба: вложенный и повторный K-сгиб - это совершенно разные вещи, используемые для разных целей.
Поэтому я рекомендую повторить любую вложенную k-кратную перекрестную проверку .
Лучший отчет «Статистика нашего оценщика, например, его доверительный интервал, дисперсия, среднее и т. Д. По полной выборке (в данном случае выборка CV)». :
Конечно. Однако вам необходимо знать, что вы не сможете (легко) оценить доверительный интервал только по результатам перекрестной проверки. Причина в том, что, сколько бы вы ни делали повторную выборку, фактическое количество рассмотренных вами случаев конечно (и, как правило, довольно мало - иначе вы бы не беспокоились об этих различиях).
См., Например, Bengio, Y. and Grandvalet, Y .: Нет объективной оценки дисперсии K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 .
C. Beleites, R. Salzer и V. Sergo: Валидация моделей мягкой классификации с использованием частичного членства в классах: расширенная концепция чувствительности & Co., применяемая для классификации тканей астроцитомы, Chemom. Интелл. Лаборатория Syst., 122 (2013), 12 - 22.
Так что это позволяет мне обернуть вашу аргументацию против удержания :
Обычно да. Однако также следует помнить, что существуют важные типы ошибок (например, дрейф), которые не могут быть измерены / обнаружены путем проверки с помощью повторной выборки.
См., Например, Esbensen, KH and Geladi, P. Принципы правильной валидации: использование и злоупотребление повторной выборкой для валидации, Journal of Chemometrics, 2010, 24, 168-187.
Имеет ли это значение, зависит от нестабильности (суррогатных) моделей, см. Выше. Для стабильных моделей это неактуально. Так может быть, делаете ли вы 1000 или 100 внешних повторений / итераций.
И этот документ определенно входит в список для чтения по этой теме: Cawley, GC and Talbot, NLC. О переоснащении при выборе модели и последующем смещении выбора при оценке производительности, Journal of Machine Learning Research, 2010, 11, 2079-2107
источник
Ключевая ссылка, объясняющая это:
Смотрите также:
В своей работе я обнаружил, что разделение данных требует обучения и проверки размеров выборки, приближающихся к 10000, чтобы работать удовлетворительно.
источник
Это действительно зависит от вашего процесса построения модели, но я нашел этот документ полезным
http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf
Суть того, что здесь обсуждается, - это существенное либеральное смещение (оценка производительности модели лучше, чем она будет на самом деле), которое произойдет, если вы выбираете свою модель на основе того же, что вы используете для оценки ее производительности. Таким образом, если вы выбираете свою модель из набора возможных моделей, рассматривая ее ошибку перекрестной проверки, вы не должны использовать ошибку перекрестной проверки (или любой другой метод внутренней оценки) для оценки производительности модели.
Еще один полезный ресурс
/stats//a/27751/26589
В этом посте приведен четкий пример того, как выбор ваших функций, когда все данные «видны», приведет к либеральному уклону в производительности модели (говоря, что ваша модель будет работать лучше, чем на самом деле).
Если вы хотите, чтобы я изложил пример, который более конкретно относится к тому, что вы делаете, возможно, вы могли бы дать общее описание типов моделей, которые вы строите (сколько данных у вас есть, сколько функций вы выбираете, актуальная модель и т. д.).
источник
Я думаю, что вы понимаете правильно, оценка потерь, полученных с помощью одного набора тестов на вынос, обычно имеет высокую дисперсию. Выполнив что-то вроде перекрестной проверки K-Folds, вы получите более точное представление о потере, а также о смысле ее распределения.
Обычно есть компромисс: чем больше CV сгибает, тем лучше ваша оценка, но требуется больше вычислительного времени.
источник