TLDR:
Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен:
Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)?
Или я должен вместо этого вычислить ошибку на выходах, которые я получаю в каждом сгибе (с 12 выборками на сгиб), а затем получить мою окончательную оценку ошибки как среднее из 10-кратных оценок ошибки?
Существуют ли какие-либо научные труды, которые утверждают различия между этими методами?
Справочная информация: Потенциальная связь с макро / микро баллами в мультимаркированной классификации:
Я думаю, что этот вопрос может быть связан с различием между микро и макро средними значениями, которые часто используются в задаче классификации с несколькими метками (например, 5 меток).
В настройке с несколькими метками микро-средние оценки рассчитываются путем составления агрегированной таблицы непредвиденных обстоятельств истинного положительного, ложного положительного, истинного отрицательного, ложного отрицательного для всех 5 прогнозов классификатора на 120 выборках. Эта таблица непредвиденных обстоятельств затем используется для вычисления микро точности, микро отзыва и микро f-меры. Поэтому, когда у нас есть 120 выборок и пять классификаторов, микро меры рассчитываются по 600 прогнозам (120 выборок * 5 меток).
При использовании варианта « Макро» каждый вычисляет меры (точность, отзыв и т. Д.) Независимо для каждой метки и, наконец, эти меры усредняются.
Идея, лежащая в основе разницы между оценками микро и макро, может быть расширена до того, что может быть сделано в K-кратной настройке в задаче двоичной классификации. В 10 раз мы можем либо усреднить более 10 значений ( макроизмерение ), либо объединить 10 экспериментов и вычислить микроизмерения .
Фон - Расширенный пример:
Следующий пример иллюстрирует вопрос. Допустим, у нас есть 12 тестовых образцов, и у нас есть 10 сгибов:
- Сгиб 1 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 2 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 3 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 4 : TP = 0, FP = 12, точность = 0
- Сгиб 5 .. Сгиб 10 : у всех одинаковые TP = 0, FP = 12 и Precision = 0
где я использовал следующие обозначения:
TP = количество истинных отрицательных значений, FP = # ложных положительных значений , TN = количество истинных отрицательных значений
Результаты:
- Средняя точность в 10 раз = 3/10 = 0,3
- Точность при объединении прогнозов в 10 крат = TP / TP + FP = 12/12 + 84 = 0,125
Обратите внимание, что значения 0,3 и 0,125 очень разные !
источник
Ответы:
Описанная разница ИМХО фиктивная.
Это будет наблюдаться только в том случае, если распределение истинно положительных случаев (т. Е. Эталонный метод говорит, что это положительный случай) очень неравномерно по сгибам (как в примере) и количеству соответствующих тестовых случаев (знаменатель показателя эффективности мы говорим о том, что здесь действительно положительный результат) не учитывается при усреднении средних по фолду.
Если вы взвесите первые три кратных средних с помощью (так как было всего 4 тестовых примера из общего числа 12 случаев, которые имеют отношение к вычислению точности), и последние 6-кратные средние с 1 (все контрольные примеры, относящиеся к вычислению точности), средневзвешенное значение точно такое же, как и при объединении прогнозов 10-кратных значений, а затем при вычислении точности.412= 13
редактировать: исходный вопрос также задавали об повторении / повторении проверки:
да , вы должны выполнить итерации всей процедуры перекрестной проверки в кратном размере: отсюда вы можете получить представление о стабильности предсказаний ваших моделейК
Вы просили научные статьи :
Препринт
Недооценка дисперсии В конечном счете, ваш набор данных имеет конечный (n = 120) размер выборки, независимо от того, сколько итераций начальной загрузки или перекрестной проверки вы выполняете.
У вас есть (как минимум) 2 источника отклонений в результатах проверки повторной выборки (перекрестная проверка и из начальной загрузки):
Если ваши модели стабильны, то
источник
Вы должны сделать оценку (объединение). Это распространенное заблуждение в области, что среднее значение (баллы) является лучшим. Это может внести в вашу оценку больше предвзятости, особенно в редких классах, как в вашем случае. Вот документ, подтверждающий это:
http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf
В статье они используют «Favg» вместо ваших «средних (баллов)» и «Ftp, fp» вместо ваших «баллов (конкатенации)»
Пример игрушки:
Представьте, что у вас есть 10-кратная перекрестная проверка и класс, который появляется 10 раз, и ему назначается так, что он появляется один раз в каждом сгибе. Кроме того, класс всегда прогнозируется правильно, но там есть один ложноположительный результат в данных. Тестовый фолд, содержащий ложное срабатывание, будет иметь точность 50%, в то время как все другие фолды будут иметь 100%. Итак, avg (баллы) = 95%. С другой стороны, оценка (конкатенация) составляет 10/11, около 91%.
Если мы предположим, что эта истинная популяция хорошо представлена данными, и что 10 классификаторов перекрестной проверки хорошо представляют окончательный классификатор, то точность в реальном мире будет равна 91%, а среднегодовая (95 баллов) оценка будет смещена ,
На практике вы не захотите делать такие предположения. Вместо этого вы можете использовать статистику распределения для оценки достоверности путем случайной перестановки данных и многократного пересчета (конкатенации), а также начальной загрузки.
источник