С k-кратной перекрестной проверкой, усредняете ли вы все моделей для построения окончательной модели?

13

При выполнении перекрестной проверки в k-кратном размере я понимаю, что вы получаете метрики точности, указывая все сгибы, кроме одного, на один сгиб и делаете прогнозы, а затем повторяете этот процесс раз. Затем вы можете запустить метрики точности для всех ваших экземпляров (точность, отзыв,% классифицированы правильно), которые должны быть такими же, как если бы вы рассчитывали их каждый раз, а затем усредняли результат (поправьте меня, если я ошибаюсь).k

Конечный результат, который вы хотите, является конечной моделью.

Вы усредняете полученные модели, чтобы ваш набор из предсказаний получился в результате с моделью, имеющей метрики точности, полученные вышеуказанным методом?k

Кошка Морж
источник

Ответы:

15

k

Результаты эксперимента перекрестной проверки могут сказать вам, что машины опорных векторов превосходят наивные байесовские значения в ваших данных или что гиперпараметрам классификатора следует задать значение c для этого конкретного набора данных. Вооружившись этими знаниями, вы затем обучите «производственный» классификатор ВСЕМ доступным данным и примените его к своей проблеме.

Во многих случаях даже неясно, как вы будете усреднять несколько моделей. Например, каково среднее значение трех деревьев решений или классификаторов ближайших соседей?

Важно помнить, что результаты перекрестной проверки являются оценками, а не гарантиями, и эти оценки являются более достоверными, если классификатор производства обучается с аналогичным качеством (и количеством) данных. Была проделана значительная работа по разработке способов использования этих оценок для выполнения умозаключений; то есть, если говорить статистически обоснованным образом, этот метод A обычно превосходит метод B по этим данным.

Мэтт Краузе
источник
2
Что хорошего в использовании к-кратных оценок перекрестной проверки для вывода? Я хотел бы прочитать об этом, если у вас есть хорошая доля.
Tentaclenorm
1
Достойным местом для начала может быть iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/…, но есть множество разных подходов.
Мэтт Краузе
1
Еще одна вещь, которую нужно уточнить: когда мы обучаем «производственный» классификатор, используя все данные, как мы понимаем, когда следует остановиться?
Антон