Соревнования Kaggle определяют итоговые рейтинги на основе проведенного тестового набора.
Выдержанный тестовый набор является образцом; он не может быть репрезентативным для моделируемого населения. Поскольку каждое представление похоже на гипотезу, алгоритм, выигравший соревнование, может, совершенно случайно, в конечном итоге соответствовать тестовому набору лучше, чем другие. Другими словами, если бы был выбран другой набор тестов и соревнование повторилось, рейтинги остались бы прежними?
Для корпорации-спонсора это на самом деле не имеет значения (вероятно, лучшие 20 заявок улучшат свои базовые показатели). Хотя, по иронии судьбы, они могут в конечном итоге использовать модель первого ранга, которая хуже, чем остальные пять лучших. Но для участников соревнования кажется, что Kaggle - это в конечном счете азартная игра - удача не нужна, чтобы наткнуться на правильное решение, она должна наткнуться на то, которое соответствует тестовому набору!
Можно ли изменить соревнование так, чтобы победили все лучшие команды, которые не могут быть статистически различимы? Или в этой группе может победить самая экономная или вычислительно дешевая модель?
источник
Ответы:
Да, ваши рассуждения верны. Если был выбран другой набор тестов и соревнование повторилось, рейтинг действительно изменился бы. Рассмотрим следующий пример. Все записи в соревновании Kaggle с бинарными метками просто угадывают (и, скажем, независимо), чтобы предсказать их вывод. Случайно, один из них согласится с несогласным больше, чем другие, даже если прогноз не идет.
Хотя это немного надумано, мы можем видеть, что отклонение в каждой из моделей представления будет означать, что применение многих таких записей действительно будет соответствовать шуму набора несогласных. Это говорит нам о том, что (в зависимости от индивидуальных дисперсий моделей) модели с топ-N, вероятно, обобщают одно и то же. Это сад разветвлений , за исключением того, что «исследователи» не одинаковы (но это не имеет значения).
В самом деле.
источник
Есть другие виды соревнований в Kaggle, которые не имеют случайных элементов. Например, это украденные сани Станты .
Это проблема дискретной оптимизации, и у нее даже нет частного лидера. То, что вы видите в публичном списке лидеров - это окончательные результаты.
По сравнению с контролируемым обучением, которое легко начинается для многих людей, этот тип соревнования носит более «жесткий» характер.
источник