У меня есть случайная регрессия леса, построенная с использованием skl, и я отмечаю, что я получаю разные результаты, основываясь на установке случайного начального числа на разные значения.
Если я использую LOOCV, чтобы определить, какое семя работает лучше всего, это правильный метод?
cross-validation
random-forest
user2723494
источник
источник
Ответы:
Ответ - нет .
Ваша модель дает разные результаты для каждого используемого вами семени. Это является результатом недетерминированной природы модели. Выбор конкретного начального числа, обеспечивающего максимальную производительность набора проверки, означает, что вы выбрали «расположение», которое наилучшим образом соответствует этому набору. Однако это не гарантирует, что модель с этим начальным числом будет работать лучше в отдельном наборе испытаний . Это просто означает, что вы переписали модель в наборе проверки .
Этот эффект является причиной, по которой вы видите, что многие люди, которые занимают высокие места в соревнованиях (например, kaggle) в общедоступном тестовом наборе, терпят неудачу в скрытом тестовом наборе. Этот подход ни в коем случае не считается правильным подходом.
источник