Я просматривал различные темы здесь, но не думаю, что на мой точный вопрос дан ответ.
У меня есть набор данных из ~ 50 000 студентов и их время для отсева. Я собираюсь выполнить пропорциональную регрессию рисков с большим количеством потенциальных ковариат. Я также собираюсь провести логистическую регрессию по отсеву / пребыванию в школе. Основной целью будет прогнозирование для новых групп студентов, но у нас нет оснований полагать, что они будут сильно отличаться от прошлогодней когорты.
Обычно у меня нет такой роскоши данных, и я подгоняю модель под какое-то наказание, но на этот раз я решил разделить int и обучающие наборы данных, а затем сделать выбор переменных в обучающем наборе; затем используя набор тестовых данных для оценки параметров и прогнозирующей способности.
Это хорошая стратегия? Если нет, то что лучше?
Цитаты приветствуются, но не обязательно.
источник
Я сам искал эту статью для аналогичной задачи перекрестной проверки прогноза выживания. Хорошие моменты начинаются с Главы 2.
источник
С тех пор я нашел эту статью, которая не только отвечает на мой вопрос, но и предоставляет метод для определения оптимального разделения для конкретных наборов данных. Я нашел это благодаря использованию @FrankHarrell термина «оптимальная конфигурация разделения», который я затем гуглил.
источник