При выполнении 5-кратной перекрестной проверки (например) обычно рассчитывают отдельную кривую ROC для каждой из 5-кратных и часто умножают среднюю кривую ROC на стандартное отклонение. девиация показано как толщина кривой.
Тем не менее, для перекрестной проверки LOO, когда в каждом сгибе имеется только один тестовый набор данных, не представляется разумным вычислять ROC-кривую для этого одного набора данных.
Я взял все свои точки тестовых данных (вместе с их отдельно вычисленными p-значениями) и объединил их в один большой набор для вычисления одной кривой ROC, но статистически ли это нужно делать кошернее?
Как правильно применять ROC-анализ, когда число точек данных в каждом сгибе равно единице (как в случае перекрестной проверки LOO)?
cross-validation
roc
user1121
источник
источник
Ответы:
Если классификатор выводит вероятности, то целесообразно объединить все выходные данные контрольной точки для одной кривой ROC. Если нет, то масштабируйте выходные данные классификатора таким образом, чтобы сделать его напрямую сопоставимым по классификаторам. Например, скажем, вы используете линейный дискриминантный анализ. Обучите классификатор, а затем введите данные обучения через классификатор. Изучите два веса: параметр масштаба (стандартное отклонение выходов классификатора после вычитания среднего значения класса) и параметр сдвига (среднее значение первого класса). Используйте эти параметры, чтобы нормализовать необработанный вывод каждого классификатора LDA черезσ μ r n=(r−μ)/σ , а затем вы можете создать кривую ROC из набора нормализованных выходов. Это предостережение о том, что вы оцениваете больше параметров, и поэтому результаты могут немного отличаться, чем если бы вы построили кривую ROC на основе отдельного набора тестов.
Если невозможно нормализовать выходные данные классификатора или преобразовать их в вероятности, тогда анализ ROC на основе LOO-CV не подходит.
источник