K-кратная перекрестная проверка может использоваться для оценки возможности обобщения данного классификатора. Могу ли я (или я должен) также вычислить объединенную дисперсию из всех проверочных прогонов, чтобы получить лучшую оценку ее дисперсии?
Если нет, то почему?
Я нашел документы, в которых действительно используется объединенное стандартное отклонение при выполнении перекрестной проверки . Я также нашел работы, явно заявляющие, что не существует универсальной оценки для дисперсии валидации . Тем не менее, я также нашел работы, показывающие некоторые оценки дисперсии для ошибки обобщения (я все еще читаю и пытаюсь понять это). Что люди на самом деле делают (или сообщают) на практике?
РЕДАКТИРОВАТЬ: Когда CV используется для измерения грубой ошибки классификации (т. Е. Либо образец помечен правильно, либо нет, например, истина или ложь), тогда может не иметь смысла говорить о объединенной дисперсии. Однако я имею в виду случай, когда в статистике, которую мы оцениваем, есть определенная дисперсия. Таким образом, для данного сгиба мы можем получить как значение для статистики, так и оценку дисперсии. Не представляется правильным отбрасывать эту информацию и рассматривать только среднюю статистику. И хотя я знаю, что могу построить оценку дисперсии, используя методы начальной загрузки (если я не очень ошибаюсь), при этом все равно будут игнорироваться отклонения сгиба и приниматься во внимание только статистические оценки (плюс для этого потребуется гораздо больше вычислительных мощностей).
Ответы:
Очень интересный вопрос, мне придется читать газеты, которые вы даете ... Но, может быть, это заставит нас в направлении ответа:
Я обычно решаю эту проблему очень прагматично: я повторяю перекрестную проверку в k-кратном порядке с новыми случайными разбиениями и вычисляю производительность как обычно для каждой итерации. В этом случае общие тестовые образцы одинаковы для каждой итерации, и различия зависят от различий в данных.
Это я сообщаю, например, как 5–95-й процентиль наблюдаемой производительности по отношению к. обмен до образцов на новые образцы и обсуждение их как меры нестабильности модели.NК- 1
Примечание: я в любом случае не могу использовать формулы, которым нужен размер выборки. Поскольку мои данные имеют кластерную или иерархическую структуру (многие похожие, но не повторные измерения одного и того же случая, обычно несколько [сотен] разных мест одного и того же образца), я не знаю эффективного размера выборки.
сравнение с начальной загрузкой:
итерации используют новые случайные разбиения.
Основное отличие заключается в повторной выборке с (начальной загрузкой) или без замены (cv).
вычислительные затраты примерно одинаковы, так как я бы выбрал не итераций cv нет итераций начальной загрузки / k, то есть вычислил бы то же общее количество моделей.≈
bootstrap имеет преимущества перед cv с точки зрения некоторых статистических свойств (асимптотически правильно, возможно, вам нужно меньше итераций, чтобы получить хорошую оценку)
однако, с cv у вас есть преимущество в том, что вы гарантированно
некоторые методы классификации отбрасывают повторные выборки, поэтому при начальной загрузке нет смысла
Дисперсия для производительности
краткий ответ: да, имеет смысл говорить о дисперсии в ситуации, когда существуют только {0,1} результаты.
Посмотрите на биномиальное распределение (k = успехи, n = тесты, p = истинная вероятность успеха = среднее k / n):
Дисперсия пропорций (таких как частота попаданий, частота ошибок, чувствительность, TPR, ..., момента я буду использовать и для наблюдаемого значения в тесте) - это тема, которая заполняет целые книги .. ,рп п^
Теперь и поэтому:п^= кN
Это означает, что неопределенность измерения эффективности классификатора зависит только от истинной производительности p тестируемой модели и количества тестируемых образцов.
В перекрестной проверке вы принимаете
что k «суррогатных» моделей имеют ту же истинную производительность, что и «настоящая» модель, которую вы обычно строите из всех образцов. (Нарушение этого предположения является известным пессимистическим уклоном).
что k «суррогатных» моделей имеют одинаковую истинную производительность (эквивалентны, имеют стабильные прогнозы), поэтому вы можете объединять результаты k тестов.
Конечно, тогда можно объединять не только k «суррогатных» моделей одной итерации cv, но и ki-модели i-итераций k-кратного cv.
Зачем повторять?
Главное, что говорят итерации, - нестабильность модели (прогнозирования), т. Е. Дисперсия прогнозов разных моделей для одной и той же выборки.
Вы можете напрямую сообщать о нестабильности как, например, дисперсию в прогнозировании данного тестового примера, независимо от того, является ли прогноз корректным или немного более косвенным, как дисперсию для различных итераций cv.п^
И да, это важная информация.
Теперь, если ваши модели абсолютно стабильны, все или будут производить точно такой же прогноз для данной выборки. Другими словами, все итерации будут иметь одинаковый результат. Дисперсия оценки не была бы уменьшена итерацией (предполагая, что ). В этом случае предположение 2 из вышеупомянутого выполнено, и вы подчиняетесь только где n - общее количество образцов, протестированных во всех K складок сорта. В этом случае итерации не нужны (кроме как для демонстрации стабильности). к ⋅ п я т е р . с V п - 1 ≈ п σ 2 ( р ) = р ( 1 - р )Nб о о т ы т т р k ⋅ nя т е р . с V n - 1 ≈ n σ2( р^) = p ( 1 - p )N
Затем можно построить доверительные интервалы для истинной производительности из наблюдаемого отсутствия успехов в тестах. Таким образом, строго говоря, нет необходимости сообщать о неопределенности дисперсии, если сообщается и . Однако в моей области не многие люди знают об этом или даже имеют интуитивное представление о том, насколько велика неопределенность с размером выборки. Так что я бы рекомендовал сообщить об этом в любом случае.к п р пп К N п^ N
Если вы наблюдаете нестабильность модели, объединенное среднее является лучшей оценкой истинной производительности. Дисперсия между итерациями является важной информацией, и вы можете сравнить ее с ожидаемой минимальной дисперсией для тестового набора размера n с истинной средней производительностью по всем итерациям.
источник
Помните, что CV является только оценкой и никогда не может представлять «реальную» ошибку обобщения В зависимости от размера вашей выборки (который будет влиять на ваше количество сгибов или размер сгибов) вы можете быть сильно ограничены в своей способности вычислять любые оценки параметров распределения ошибки обобщения. По моему мнению (и я видел это в различных учебниках «Обнаружение знаний с помощью машин опорных векторов» -Лутц Хамел), вы можете сделать несколько вариантов начальной загрузки CV, чтобы оценить распределение ошибки обобщения, но стандартное 10- 1 (например) после выключения резюме не даст вам достаточно данных, чтобы сделать выводы об истинной ген-ошибке. Начальная загрузка требует, чтобы вы взяли несколько образцов с заменой из вашего обучения / теста / val, эффективно выполняя несколько (скажем, 1000 или около того) 10-1 (или что-то еще) CV тестов. Затем вы берете выборочное распределение средних значений для каждого теста CV как оценку распределения выборки среднего значения для совокупности ошибок CV, и из этого вы можете оценить параметры распределения, то есть среднее значение, медиана, стандартное отклонение max max Q1 Q3 и т. Д. Это немного работы, и, на мой взгляд, это действительно необходимо, если ваше приложение достаточно важно / рискованно, чтобы оправдать дополнительную работу. то есть, возможно, в маркетинговой среде, где бизнес просто счастлив быть лучше, чем случайный, тогда, возможно, не требуется НО, если вы пытаетесь оценить реакцию пациента на лекарства высокого риска или прогнозировать ожидаемый доход от крупных инвестиций, вы, возможно, будете разумны для его осуществления.
источник