Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило .632+?
Я доберусь до оценки 0,632, но это будет несколько долгое развитие:
Предположим, что мы хотим предсказать с помощью используя функцию , где может зависеть от некоторых параметров, которые оцениваются с использованием данных , например,
Наивной оценкой ошибки предсказания является где - некоторая функция потерь, например возведение в квадрат ошибок. Это часто называют ошибкой обучения. Efron et al. называет это очевидной частотой ошибок или частотой повторного замещения. Это не очень хорошо, так как мы используем наши данные чтобы соответствовать . Это приводит к вниз. Вы хотите знать, насколько хорошо ваша модель справляется с предсказанием новых значений.
Часто мы используем перекрестную проверку как простой способ оценки ожидаемой ошибки прогнозирования для дополнительной выборки (насколько хорошо наша модель работает с данными, не входящими в наш обучающий набор?).
Популярный способ сделать это - сделать перекрестную проверку в кратном размере. Разделите ваши данные на групп (например, 10). Для каждой группы поместите вашу модель в оставшиеся группы и протестируйте ее в й группе. Наша перекрестно проверенная ошибка прогноза для дополнительной выборки - это просто среднее значение где - это некоторая индексная функция, которая указывает раздел, которому назначено наблюдение а - это прогнозируемое значение использующее данные, не в -й набор.
Эта оценка приблизительно несмещенная для истинной ошибки предсказания , когда и имеет большую дисперсию , и является более дорогим в вычислительном отношении для увеличения . Итак, еще раз мы видим компромисс между отклонением и дисперсией в игре.
Вместо перекрестной проверки мы могли бы использовать начальную загрузку для оценки ошибки прогнозирования для дополнительной выборки. Bootstrap resampling может использоваться для оценки распределения выборки любой статистики. Если наши обучающие данные , то мы можем подумать о том, чтобы взять загрузочных примеров (с заменой) из этого набора где каждый - это набор из выборок. Теперь мы можем использовать наши образцы начальной загрузки для оценки ошибки прогнозирования дополнительной выборки: где - это прогнозируемое значение в из модели, подходящей для
Однако, если у нас есть функция прогнозирования с чрезмерным превышением (то есть ), то даже оценка 0,632 будет смещена вниз. Оценщик .632+ разработан для того, чтобы быть менее предвзятым компромиссом между и . с где - частота ошибок при отсутствии информации, оцененная путем оценки модели прогнозирования для всех возможных комбинаций целевые значения и предикторы .
Здесь измеряет относительную скорость переоснащения. Если нет переобучения (R = 0, когда ) это равно оценке .632.
Вы найдете больше информации в разделе 3 этого 1 документа. Но если подвести итог, если вы называете выборкой из чисел из отобранных случайным образом и с заменой, содержит в среднем приблизительно уникальных элементов.S n {1:n} S (1−e−1)n≈0.63212056n
Аргументация заключается в следующем. Мы заполняем путем выборки раз (случайным образом и с заменой) из . Рассмотрим конкретный индекс .S={s1,…,sn} i=1,…,n {1:n} m∈{1:n}
Затем:
а также
и это верно (интуитивно, поскольку мы производим выборку с заменой, вероятности не зависят от )∀1≤i≤n i
таким образом
Вы также можете выполнить это небольшое моделирование, чтобы эмпирически проверить качество аппроксимации (которая зависит от ):n
1. Брэдли Эфрон и Роберт Тибширани (1997). Улучшения в перекрестной проверке: метод начальной загрузки .632+ . Журнал Американской Статистической Ассоциации , Vol. 92, № 438, с. 548-560.
источник
По моему опыту, в первую очередь основанном на моделировании, варианты начальной загрузки 0.632 и 0.632+ были необходимы только из-за серьезных проблем, вызванных использованием неправильного правила оценки точности, а именно пропорции, «классифицированной» правильно. Когда вы используете правильные (например, на основе отклонения или оценки Бриера) или полусобственные (например, -index = AUROC) правила подсчета очков, стандартный загрузчик оптимизма Эфрона-Гонга работает просто отлично.c
источник
Эти ответы очень полезны. Я не смог найти способ продемонстрировать это с помощью математики, поэтому я написал немного кода на Python, который работает довольно хорошо:
источник