Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на частный тестовый набор?
Согласно «Псевдоматематике и финансовому шарлатанизму: влияние перенастройки на спине на производительность вне выборки» Bailey et.al. сравнительно легко "переопределить", выбирая лучшее из большого числа моделей, оцениваемых по одному и тому же набору данных. Разве это не происходит с личным списком лидеров Kaggle?
- Каковы статистические обоснования для моделей с лучшими показателями в частной таблице лидеров, являющихся моделями, которые обобщают лучшие данные вне выборки?
- Действительно ли компании в конечном итоге используют модели-победители, или частный список лидеров существует только для того, чтобы предоставить «правила игры», и компании на самом деле больше заинтересованы в понимании, которое возникает в результате обсуждения проблемы?
Ответы:
Что ж, пункты, которые вы представляете, справедливы, однако я думаю, что есть гораздо более реальная проблема с переобучением людей в публичном списке лидеров .
Это может произойти, когда вы сделаете 100 или около того представлений, общедоступный набор тестов в конечном итоге истечет вашим выбором гиперпараметра и, таким образом, перегрузится. Я думаю, что частный список лидеров необходим в этом отношении.
источник