Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут к снижению показателя.
Я использовал стратифицированную 10-кратную перекрестную проверку для вычисления вероятности ошибочной классификации. Мой текущий размер выборки составляет около 40 правильных совпадений и 80 неправильных совпадений, где каждая точка данных является вычисленной метрикой. Я получаю вероятность ошибочной классификации 0,00, но мне нужен какой-то доверительный интервал / анализ ошибок по этому вопросу.
Я искал использование доверительного интервала биномиальной пропорции (где я использовал результаты перекрестной проверки как правильную маркировку или неправильную маркировку для моего количества успехов). Однако одно из предположений, лежащих в основе биномиального анализа, - это одинаковая вероятность успеха для каждого испытания, и я не уверен, можно ли считать, что метод классификации «правильный» или «неправильный» в перекрестной проверке имеет такая же вероятность успеха.
Единственный другой анализ, о котором я могу подумать, это повторить перекрестную проверку X раз и вычислить среднее / стандартное отклонение ошибки классификации, но я не уверен, что это даже уместно, так как я бы повторно использовал данные из моего Относительно небольшой размер выборки в несколько раз.
есть идеи? Я использую MATLAB для всего моего анализа, и у меня есть набор инструментов статистики. Буду признателен за любую помощь!
Ответы:
Влияние нестабильности в предсказаниях разных суррогатных моделей
Ну, обычно эта эквивалентность является предположением, которое также необходимо, чтобы позволить вам объединить результаты различных суррогатных моделей.
На практике ваша интуиция о том, что это предположение может быть нарушено, часто бывает верной. Но вы можете измерить, так ли это. Вот где мне полезна повторная перекрестная проверка: стабильность предсказаний для одного и того же случая с помощью различных суррогатных моделей позволяет судить, являются ли модели эквивалентными (устойчивые предсказания) или нет.
Вот схема повторной (или повторной) кратной перекрестной проверки:k
Классы красные и синие. Круги справа символизируют прогнозы. На каждой итерации каждая выборка прогнозируется ровно один раз. Обычно, общее среднее значение используется в качестве оценки производительности, неявно предполагая, что производительность суррогатных моделей одинакова. Если вы посмотрите на каждую выборку с помощью прогнозов, сделанных различными суррогатными моделями (то есть по столбцам), вы увидите, насколько стабильны прогнозы для этой выборки.i⋅k
Вы также можете рассчитать производительность для каждой итерации (блок из 3 строк на чертеже). Любая разница между ними означает, что предположение о том, что суррогатные модели эквивалентны (друг другу и, более того, «великой модели», построенной на всех случаях), не выполняется. Но это также говорит вам, сколько у вас нестабильности. Что касается биномиальной пропорции, я думаю, что до тех пор, пока истинные показатели одинаковы (т. Е. Независимы от того, всегда ли одни и те же случаи ошибочно прогнозируются или же ошибочно прогнозируются одинаковое число, но разные случаи). Я не знаю, можно ли разумно предположить конкретное распределение производительности суррогатных моделей. Но я думаю, что в любом случае это преимущество перед распространенным в настоящее время сообщением об ошибках классификации, если вы сообщаете об этой нестабильности вообще.кk суррогатных моделей были объединены уже для каждой из итераций, дисперсия нестабильности примерно в раз превышает наблюдаемую дисперсию между итерациями.k
Мне обычно приходится работать с менее чем 120 независимыми случаями, поэтому я очень сильно упорядочил свои модели. Я тогда , как правило , в состоянии показать , что нестабильность дисперсия , чем конечная дисперсия размера исследуемого образца. (И я думаю, что это имеет смысл для моделирования, поскольку люди склонны к обнаружению закономерностей и, таким образом, тянутся к построению слишком сложных моделей и, таким образом, к переоснащению). Я обычно сообщаю процентили наблюдаемой дисперсии нестабильности на итерациях (и , и ) и биномиальные доверительные интервалы на средней наблюдаемой производительности для конечного размера тестовой выборки.н к я≪
n k i
Чертеж является более новой версией рис. 5 в этой статье: Beleites, C. & Salzer, R .: Оценка и улучшение стабильности хемометрических моделей в ситуациях с небольшим размером выборки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Заметьте, что когда мы писали статью, я еще не полностью осознал различные источники дисперсии, которые я здесь объяснил, - имейте это в виду. Поэтому я считаю, что аргументациядля оценки эффективного размера выборки, приведенной здесь, это неверно, хотя заключение приложения о том, что различные типы тканей в каждом пациенте дают столько же общей информации, сколько новый пациент с данным типом ткани, все еще вероятно (у меня совершенно другой тип доказательства, которые также указывают на это). Тем не менее, я еще не совсем уверен в этом (ни как сделать это лучше и, следовательно, быть в состоянии проверить), и эта проблема не связана с вашим вопросом.
Какую производительность использовать для биномиального доверительного интервала?
До сих пор я использовал среднюю наблюдаемую производительность. Вы также можете использовать худшую наблюдаемую производительность: чем ближе наблюдаемая производительность к 0,5, тем больше дисперсия и, следовательно, доверительный интервал. Таким образом, доверительные интервалы наблюдаемой производительности, близкие к 0,5, дают вам некоторый консервативный «запас прочности».
Обратите внимание, что некоторые методы для вычисления биномиальных доверительных интервалов работают также, если наблюдаемое количество успехов не является целым числом. Я использую «интеграцию байесовской апостериорной вероятности», как описано в
Ross, TD: Точные доверительные интервалы для биномиальной пропорции и оценки скорости Пуассона, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Я не знаю, для Matlab, но в R вы можете использовать
binom::binom.bayes
с обоими параметрами формы, установленными в 1).Эти мысли применимы к прогнозным моделям, построенным на этом обучающем наборе данных, для неизвестных новых случаев. Если вам нужно сгенерировать другие наборы обучающих данных, взятые из той же совокупности случаев, вам необходимо оценить, насколько изменяются модели, обученные на новых обучающих выборках размера . (Я понятия не имею, как это сделать, кроме как получить «физически» новые наборы тренировочных данных)n
См. Также: Bengio Y. and Grandvalet Y .: Нет объективной оценки дисперсии перекрестной проверки K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Больше думать об этом есть в моем списке задач ... но, поскольку я пришел из экспериментальной науки, мне нравится дополнять теоретические и симуляционные выводы экспериментальными данными - что здесь сложно, так как мне нужен большой набор независимых кейсов для эталонного тестирования)
Обновление: оправдано ли предположить биомиальное распределение?
Я вижу k-кратное CV как в следующем эксперименте по бросанию монет : вместо того, чтобы бросать одну монету большое количество раз, монет, произведенных той же самой машиной, бросают меньшее количество раз. В этой картине, я думаю, @Tal указывает, что монеты не совпадают. Что, очевидно, правда. Я думаю, что следует и что можно сделать, зависит от предположения об эквивалентности для суррогатных моделей.k
Если на самом деле существует разница в производительности между суррогатными моделями (монетами), «традиционное» предположение о том, что суррогатные модели эквивалентны, не имеет места. В этом случае не только распределение не является биномиальным (как я уже говорил выше, я понятия не имею, какое распределение использовать: это должна быть сумма биномов для каждой суррогатной модели / каждой монеты). Однако обратите внимание, что это означает, что объединение результатов суррогатных моделей не допускается. Таким образом, ни бином для тестов не является хорошим приближением (я пытаюсь улучшить приближение, говоря, что у нас есть дополнительный источник вариации: нестабильность), ни средняя производительность не может использоваться в качестве точечной оценки без дальнейшего обоснования.n
Если, с другой стороны, (истинные) характеристики суррогата одинаковы, то есть когда я имею в виду «модели эквивалентны» (один из симптомов состоит в том, что прогнозы стабильны). Я думаю, что в этом случае результаты всех суррогатных моделей могут быть объединены, и биномиальное распределение для всех тестов должно быть приемлемым для использования: я думаю, что в этом случае мы оправданы, чтобы приблизить истинные s суррогатных моделей, чтобы они были равны и, таким образом, описать тест как эквивалент броска одной монеты раз.р нn p n
источник
Я думаю, что ваша идея повторения перекрестной проверки много раз правильна.
Повторите ваше резюме, скажем, 1000 раз, каждый раз разбивая ваши данные на 10 частей (для 10-кратного резюме) по-разному ( не перемешивайте метки). Вы получите 1000 оценок точности классификации. Конечно, вы будете повторно использовать одни и те же данные, поэтому эти 1000 оценок не будут независимыми. Но это похоже на процедуру начальной загрузки: вы можете принять стандартное отклонение для этих погрешностей в качестве стандартной ошибки среднего значения вашей общей оценки точности. Или 95% -ный процентильный интервал как 95% -ный доверительный интервал.
В качестве альтернативы вы можете объединить цикл перекрестной проверки и цикл начальной загрузки и просто выбрать случайные (возможно, стратифицированные случайные) 10% ваших данных в качестве тестового набора и сделать это 1000 раз. Те же рассуждения, что и выше, применимы и здесь. Однако это приведет к большей дисперсии повторений, поэтому я считаю, что описанная выше процедура лучше.
Если ваш уровень ошибочной классификации равен 0,00, ваш классификатор делает ноль ошибок, и если это происходит на каждой итерации начальной загрузки, вы получите нулевой доверительный интервал. Но это будет просто означать, что ваш классификатор в значительной степени идеален, поэтому хорош для вас.
источник
Ошибка классификации - это и прерывистое, и неправильное правило подсчета очков. Он имеет низкую точность, и при оптимизации он выбирает неправильные функции и дает им неправильный вес.
источник