Среднее (баллы) против балла (конкатенации) в перекрестной проверке

15

TLDR:

Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен:

  1. Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)?

  2. Или я должен вместо этого вычислить ошибку на выходах, которые я получаю в каждом сгибе (с 12 выборками на сгиб), а затем получить мою окончательную оценку ошибки как среднее из 10-кратных оценок ошибки?

Существуют ли какие-либо научные труды, которые утверждают различия между этими методами?


Справочная информация: Потенциальная связь с макро / микро баллами в мультимаркированной классификации:

Я думаю, что этот вопрос может быть связан с различием между микро и макро средними значениями, которые часто используются в задаче классификации с несколькими метками (например, 5 меток).

В настройке с несколькими метками микро-средние оценки рассчитываются путем составления агрегированной таблицы непредвиденных обстоятельств истинного положительного, ложного положительного, истинного отрицательного, ложного отрицательного для всех 5 прогнозов классификатора на 120 выборках. Эта таблица непредвиденных обстоятельств затем используется для вычисления микро точности, микро отзыва и микро f-меры. Поэтому, когда у нас есть 120 выборок и пять классификаторов, микро меры рассчитываются по 600 прогнозам (120 выборок * 5 меток).

При использовании варианта « Макро» каждый вычисляет меры (точность, отзыв и т. Д.) Независимо для каждой метки и, наконец, эти меры усредняются.

Идея, лежащая в основе разницы между оценками микро и макро, может быть расширена до того, что может быть сделано в K-кратной настройке в задаче двоичной классификации. В 10 раз мы можем либо усреднить более 10 значений ( макроизмерение ), либо объединить 10 экспериментов и вычислить микроизмерения .

Фон - Расширенный пример:

Следующий пример иллюстрирует вопрос. Допустим, у нас есть 12 тестовых образцов, и у нас есть 10 сгибов:

  • Сгиб 1 : TP = 4, FP = 0, TN = 8 Точность = 1,0
  • Сгиб 2 : TP = 4, FP = 0, TN = 8 Точность = 1,0
  • Сгиб 3 : TP = 4, FP = 0, TN = 8 Точность = 1,0
  • Сгиб 4 : TP = 0, FP = 12, точность = 0
  • Сгиб 5 .. Сгиб 10 : у всех одинаковые TP = 0, FP = 12 и Precision = 0

где я использовал следующие обозначения:

TP = количество истинных отрицательных значений, FP = # ложных положительных значений , TN = количество истинных отрицательных значений

Результаты:

  • Средняя точность в 10 раз = 3/10 = 0,3
  • Точность при объединении прогнозов в 10 крат = TP / TP + FP = 12/12 + 84 = 0,125

Обратите внимание, что значения 0,3 и 0,125 очень разные !

user13420
источник
CV не очень хорошая мера для прогнозирования будущих результатов. Разница слишком мала. Лучше пойти с начальной загрузкой для проверки вашей модели.
user765195
2
@ user765195: не могли бы вы сделать резервную копию вашего заявления с некоторыми цитатами?
Зак
Я искал, но я не нашел никакой литературы относительно агрегированного метода CV. Представляется, что это более подходящий способ для вычисления меры, поскольку она имеет меньшую дисперсию.
user13420
1
@ Зак, здесь, в книге Харрелла, есть некоторое обсуждение: tinyurl.com/92fsmuv (посмотрите последний абзац на странице 93 и первый абзац на странице 94.) Я постараюсь вспомнить другие ссылки, которые являются более явными.
user765195
1
AFAIK, выбор между внешней загрузкой и повторной кратной перекрестной проверкой не совсем ясен. Это может зависеть от типа данных, которые у вас есть, и от интерпретации, которую вы хотите сделать. К
cbeleites поддерживает Монику

Ответы:

3

Описанная разница ИМХО фиктивная.

Это будет наблюдаться только в том случае, если распределение истинно положительных случаев (т. Е. Эталонный метод говорит, что это положительный случай) очень неравномерно по сгибам (как в примере) и количеству соответствующих тестовых случаев (знаменатель показателя эффективности мы говорим о том, что здесь действительно положительный результат) не учитывается при усреднении средних по фолду.

Если вы взвесите первые три кратных средних с помощью (так как было всего 4 тестовых примера из общего числа 12 случаев, которые имеют отношение к вычислению точности), и последние 6-кратные средние с 1 (все контрольные примеры, относящиеся к вычислению точности), средневзвешенное значение точно такое же, как и при объединении прогнозов 10-кратных значений, а затем при вычислении точности.412знак равно13


редактировать: исходный вопрос также задавали об повторении / повторении проверки:

да , вы должны выполнить итерации всей процедуры перекрестной проверки в кратном размере: отсюда вы можете получить представление о стабильности предсказаний ваших моделейК

  • Насколько изменятся прогнозы, если данные обучения будут нарушены при обмене несколькими образцами обучения?
  • Т.е. насколько различаются прогнозы разных «суррогатных» моделей для одного и того же тестового образца?

Вы просили научные статьи :

Недооценка дисперсии В конечном счете, ваш набор данных имеет конечный (n = 120) размер выборки, независимо от того, сколько итераций начальной загрузки или перекрестной проверки вы выполняете.

  • У вас есть (как минимум) 2 источника отклонений в результатах проверки повторной выборки (перекрестная проверка и из начальной загрузки):

    • дисперсия из-за конечного числа (тест) образца
    • Дисперсия из-за нестабильности предсказаний суррогатных моделей
  • Если ваши модели стабильны, то

    • К
    • Тем не менее, оценка производительности по-прежнему может отличаться из-за конечного числа тестовых образцов.
    • Если ваша структура данных «простая» (т. Е. Один вектор измерения для каждого статистически независимого случая), вы можете предположить, что результаты теста являются результатами процесса Бернулли (бросание монет) и рассчитать дисперсию с конечным набором тестов.
  • NК

cbeleites поддерживает Монику
источник
Кроме того, я делаю мультибликовую классификацию с четырьмя классификаторами. Итак, я хочу рассмотреть микро- и макро-F-меры по четырем задачам. Я предполагаю, что «комбинированная» перекрестная проверка была бы даже необходима в этом случае? Кроме того, я не уверен, является ли out-of-bootstrap тем же «комбинированным» методом CV, о котором я упоминал выше. Было также некоторое обсуждение в stats.stackexchange.com/questions/4868/…
user13420
@ user13420: я тоже не уверен, что вы имеете в виду под комбинированным резюме ... Вот ответ, в котором я записал, что для меня значат
внешняя загрузка
@ user13420: Терминология сильно отличается в разных областях. Можете ли вы обновить свой ответ информацией о том, что такое микро- и макроэффекты F? Однако перекрестная проверка является очень общей техникой: это схема для вычисления результатов тестирования модели. Вы можете рассчитать любую меру производительности, которая требует в качестве входных данных эталонное значение для каждого случая и прогнозируемое значение для каждого случая.
cbeleites поддерживает Монику
комбинированное резюме будет означать, что вы соберете прогноз каждой задержки и вычислите меру после всех 10 задержек. Таким образом, если я измерим точность, напомним для задачи классификации, она будет иметь одинарную точность, в отличие от 10 значений и среднего (что имеет место в обычном резюме)
user13420
2
Спасибо cbeleites - я добавил эти пояснения, потому что я нашел формулировку оригинального вопроса немного запутанной. Я надеюсь, что мои правки были к лучшему - я попытался лучше выделить дилемму - но, пожалуйста, дайте мне знать иначе. Все это сказало, когда вы упомянули, что вы нашли разницу фиктивной - я хотел бы отметить, что @ user13420 получает два существенно разных результата в нижней части своего OP, когда следует подходы 1 или 2 . Я столкнулся с этой дилеммой сам. Я полагаю, что второй подход более распространен, но было бы здорово, если бы вы его приняли.
Джош
1

Вы должны сделать оценку (объединение). Это распространенное заблуждение в области, что среднее значение (баллы) является лучшим. Это может внести в вашу оценку больше предвзятости, особенно в редких классах, как в вашем случае. Вот документ, подтверждающий это:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

В статье они используют «Favg» вместо ваших «средних (баллов)» и «Ftp, fp» вместо ваших «баллов (конкатенации)»

Пример игрушки:

Представьте, что у вас есть 10-кратная перекрестная проверка и класс, который появляется 10 раз, и ему назначается так, что он появляется один раз в каждом сгибе. Кроме того, класс всегда прогнозируется правильно, но там есть один ложноположительный результат в данных. Тестовый фолд, содержащий ложное срабатывание, будет иметь точность 50%, в то время как все другие фолды будут иметь 100%. Итак, avg (баллы) = 95%. С другой стороны, оценка (конкатенация) составляет 10/11, около 91%.

Если мы предположим, что эта истинная популяция хорошо представлена ​​данными, и что 10 классификаторов перекрестной проверки хорошо представляют окончательный классификатор, то точность в реальном мире будет равна 91%, а среднегодовая (95 баллов) оценка будет смещена ,

На практике вы не захотите делать такие предположения. Вместо этого вы можете использовать статистику распределения для оценки достоверности путем случайной перестановки данных и многократного пересчета (конкатенации), а также начальной загрузки.

user2255970
источник
Это отличная статья! Я думаю, что результат на языке оригинального вопроса (не использованного в статье) заключается в том, что при вычислении F-баллов используется подход «микро-усреднения»; в частности, суммируйте TP, TN, FP, FN из всех сгибов, чтобы получить единственную матрицу смешения, а затем вычислите F балл (или другие желаемые метрики).
путешествующие