Я строю прогностическую модель, которая прогнозирует вероятность успеха студента в конце семестра. Меня особенно интересует, успешен ли студент или нет, где успех обычно определяется как завершение курса и достижение 70% или более баллов из возможных баллов.
Когда я внедряю модель, оценка вероятности успеха должна обновляться с течением времени, когда становится доступной дополнительная информация - в идеале, сразу после того, как что-то происходит, например, когда ученик отправляет задание или получает оценку по нему. Для меня это обновление звучит как байесовское, но, учитывая мое обучение статистике образования, это немного за пределами моей зоны комфорта.
До сих пор я использовал логистическую регрессию (на самом деле лассо) с историческим набором данных, содержащим снимки за неделю. Этот набор данных имеет коррелированные наблюдения, так как у каждого учащегося есть наблюдения ; наблюдения для одного студента взаимосвязаны. Я специально не моделирую корреляцию в еженедельных наблюдениях конкретного студента. Я полагаю, что мне нужно будет учитывать это только в логической постановке, поскольку стандартные ошибки будут слишком малы. Я думаю - но не уверен в этом - что единственная проблема, возникающая из коррелированных наблюдений, заключается в том, что мне нужно быть осторожным при перекрестной проверке, чтобы кластерные наблюдения были в одном подмножестве данных, чтобы я не получил искусственно низкие показатели ошибок вне выборки, основанные на прогнозах о человеке, которого модель уже видела.
Я использую пакет glmnet от R, чтобы сделать лассо с логистической моделью, чтобы сгенерировать вероятность успеха / неудачи и автоматически выбрать предикторы для конкретного курса. Я использовал переменную недели как фактор, взаимодействующий со всеми другими предикторами. Я не думаю, что в целом это отличается от простой оценки отдельных недельных моделей, за исключением того, что это дает некоторое представление о том, как может существовать некоторая общая модель, действующая в течение всего срока, которая корректируется с помощью различных факторов корректировки риска в разные недели.
Мой главный вопрос заключается в следующем: существует ли лучший способ обновления вероятностей классификации с течением времени, а не просто деление набора данных на еженедельные (или другие интервальные) снимки, введение переменной фактора периода времени, взаимодействующей со всеми другими функциями, и использовать кумулятивные функции (накопленные баллы, накопленные дни в классе и т. д.)?
Мой второй вопрос : я что-то упускаю в критическом прогнозировании с коррелированными наблюдениями?
Мой третий вопрос : как я могу обобщить это для обновления в реальном времени, если я делаю еженедельные снимки? Я планирую просто включить переменные для текущего еженедельного интервала, но мне это кажется клёвым.
К вашему сведению, я обучался прикладной образовательной статистике, но уже давно имею опыт математической статистики. Я могу сделать что-то более сложное, если это имеет смысл, но мне нужно, чтобы это было объяснено в относительно доступных терминах.