Задайте статистику любой вопрос, и его ответом будет некая форма «это зависит».
Это зависит . Помимо типа модели (хорошие точки cbeleites!), Количество обучающих заданных точек и количество предикторов? Если модель предназначена для классификации, большой дисбаланс классов может привести к увеличению числа повторений. Кроме того, если я пересэмплирую процедуру выбора функции, я буду склоняться к большему количеству повторных выборок.
Для любого метода повторной выборки, используемого в этом контексте, помните, что (в отличие от классической начальной загрузки) вам нужно только достаточно итераций, чтобы получить «достаточно точную» оценку среднего распределения. Это субъективно, но любой ответ будет.
Придерживаясь классификации с двумя классами на секунду, предположим, что вы ожидаете / надеетесь, что точность модели будет около 0,80. Поскольку процесс передискретизации является выборка оценки точности (скажем p
), стандартная ошибка будет , sqrt[p*(1-p)]/sqrt(B)
где B
это количество передискретизирует. Ведь B = 10
стандартная ошибка точности составляет около 0,13, а с B = 100
ней - около 0,04. Вы можете использовать эту формулу в качестве приблизительного руководства для этого конкретного случая.
Также учтите, что в этом примере дисперсия точности максимизируется по мере приближения к 0,50, поэтому точная модель должна требовать меньшего количества повторений, поскольку стандартная ошибка должна быть ниже, чем у моделей с низким уровнем обучаемости.
НТН,
Максимум