Я использовал повторную перекрестную проверку в k-кратном размере и сообщал о среднем значении (метрики оценки, например, чувствительности, специфичности), вычисленном как общее среднее значение для сгибов различных серий перекрестной проверки.
Тем не менее, я не уверен, как я должен сообщать о дисперсии. Я нашел много вопросов здесь, обсуждающих повторную перекрестную проверку, однако ни один из тех, которые мне известны, явно не отвечает на вопрос о дисперсии в повторных перекрестных проверочных тестах.
Я понимаю, что общая разница обусловлена: 1) нестабильностью модели и 2) ограниченным размером выборки.
Кажется, что есть 4 различных подхода для вычисления дисперсии для повторной перекрестной проверки k-кратности:
1) является ли допустимая оценка дисперсии оценочной оценочной метрикой средней производительности (например, точности) между сериями перекрестной проверки?
2) объединенная дисперсия путем объединения дисперсий, специфичных для прогона (которые вычисляются по разным сгибам прогона теста перекрестной проверки).
3) объединить результаты классификации из разных циклов перекрестной проверки в большом векторе. Например, если количество тестовых данных в каждом сгибе равно 10, а у меня 10-кратное резюме, результирующий вектор для повторения будет иметь размер 100. Теперь, если я повторю свой тест перекрестной проверки 10 раз, я буду имеют 10 векторов размером 100, каждый из которых содержит классификацию, полученную в результате 10-кратного CV. Теперь я бы вычислил среднее значение и дисперсию в случае однократного CV.
4) Я также прочитал в (уравнения 2 и 3 в 1 ), что дисперсия является суммой внешней дисперсии и ожидаемой внутренней дисперсии. Если я правильно понимаю, внешняя дисперсия - это дисперсия усредненных характеристик, характерных для повторения, а внутренняя дисперсия - это дисперсия для разных кратностей цикла перекрестной проверки.
Я был бы очень признателен за вашу помощь и руководство, какое отклонение будет уместным для повторного перекрестного тестирования.
Благодарность,
источник
Ответы:
1 и 3 кажутся мне недействительными, так как они не учитывают зависимости между повторными запусками. Другими словами, повторные k-кратные прогоны больше похожи друг на друга, чем реальные повторения эксперимента с независимыми данными.
2 не учитывает зависимости между сгибами в пределах одного прогона.
Я не знаю о 4.
Потенциально релевантным (и обескураживающим) справочником является Bengio & Grandvalet, 2004, «Нет объективной оценки дисперсии перекрестной проверки K-Fold»
источник