Обновление вероятности классификации в логистической регрессии во времени

19

Я строю прогностическую модель, которая прогнозирует вероятность успеха студента в конце семестра. Меня особенно интересует, успешен ли студент или нет, где успех обычно определяется как завершение курса и достижение 70% или более баллов из возможных баллов.

Когда я внедряю модель, оценка вероятности успеха должна обновляться с течением времени, когда становится доступной дополнительная информация - в идеале, сразу после того, как что-то происходит, например, когда ученик отправляет задание или получает оценку по нему. Для меня это обновление звучит как байесовское, но, учитывая мое обучение статистике образования, это немного за пределами моей зоны комфорта.

До сих пор я использовал логистическую регрессию (на самом деле лассо) с историческим набором данных, содержащим снимки за неделю. Этот набор данных имеет коррелированные наблюдения, так как у каждого учащегося есть наблюдения ; наблюдения для одного студента взаимосвязаны. Я специально не моделирую корреляцию в еженедельных наблюдениях конкретного студента. Я полагаю, что мне нужно будет учитывать это только в логической постановке, поскольку стандартные ошибки будут слишком малы. Я думаю - но не уверен в этом - что единственная проблема, возникающая из коррелированных наблюдений, заключается в том, что мне нужно быть осторожным при перекрестной проверке, чтобы кластерные наблюдения были в одном подмножестве данных, чтобы я не получил искусственно низкие показатели ошибок вне выборки, основанные на прогнозах о человеке, которого модель уже видела. $TermLength/7$

Я использую пакет glmnet от R, чтобы сделать лассо с логистической моделью, чтобы сгенерировать вероятность успеха / неудачи и автоматически выбрать предикторы для конкретного курса. Я использовал переменную недели как фактор, взаимодействующий со всеми другими предикторами. Я не думаю, что в целом это отличается от простой оценки отдельных недельных моделей, за исключением того, что это дает некоторое представление о том, как может существовать некоторая общая модель, действующая в течение всего срока, которая корректируется с помощью различных факторов корректировки риска в разные недели.

Мой главный вопрос заключается в следующем: существует ли лучший способ обновления вероятностей классификации с течением времени, а не просто деление набора данных на еженедельные (или другие интервальные) снимки, введение переменной фактора периода времени, взаимодействующей со всеми другими функциями, и использовать кумулятивные функции (накопленные баллы, накопленные дни в классе и т. д.)?

Мой второй вопрос : я что-то упускаю в критическом прогнозировании с коррелированными наблюдениями?

Мой третий вопрос : как я могу обобщить это для обновления в реальном времени, если я делаю еженедельные снимки? Я планирую просто включить переменные для текущего еженедельного интервала, но мне это кажется клёвым.

К вашему сведению, я обучался прикладной образовательной статистике, но уже давно имею опыт математической статистики. Я могу сделать что-то более сложное, если это имеет смысл, но мне нужно, чтобы это было объяснено в относительно доступных терминах.

time-series machine-learning logistic Энн З.
источник

4

$t_0, t_1, \ldots, t_n$ $t_i$ $(Z_i,S_i)$ $Z_i$ $S_i$ $(1,0)$ $Prob(z_i=0|s_{i-1})$ $S_i$

Вероятности отсева не являются постоянными, так как вы получите выпадение выпадения непосредственно перед окончательной датой отбрасывания без штрафа. Но вы можете оценить их по прошлым данным. Вы также можете оценить вероятность отсева как функцию текущей (мрачной) производительности.

$S$ $n$

$Z$ $S$

$S$

Исходно, вероятность прохождения учащегося - это просто оценка зачисления предыдущего класса.

$S_1$ $70-S_1$

В качестве бонуса вы можете рассчитать диапазон вероятностей, который должен сужаться по мере продвижения термина. Фактически, сильные ученики преодолеют отметку в 70% до конца семестра, и в этот момент их успех будет гарантирован. Для слабых учеников неудача также станет очевидной до конца.

RE: вопрос 3. Стоит ли переходить на непрерывное время? Я бы не стал, потому что это ставит человека в область непрерывных случайных процессов, а математика выше моей зарплаты. Мало того, вы вряд ли получите существенно другой результат.

Лучший способ обновить модель, которую я обрисовал в общих чертах, - это не переходить на непрерывное время, а корректировать вероятности перехода на основе предыдущего опыта. Возможно, слабые студенты отстают дальше, чем предсказывает модель независимости. Включение неоднородности улучшило бы модель больше, чем переход от дискретного к непрерывному времени.

Placidia
источник

0

Когда я тренирую прогностические модели для аналогичного типа развертывания, я проверяю, чтобы в моих наборах данных было что-то вроде Term_End_Date, чтобы я мог извлечь отрезок времени, оставшийся до окончания срока. Это, вероятно, в конечном итоге станет важным предиктором в вашей модели.

Что касается вопроса о коррелированных наблюдениях, я полагаю, что это имеет значение, насколько велико хранилище данных, которое у вас есть. Если возможно, я бы случайно выбрал 1 наблюдение для каждого студента, стратифицированного на [# недель до окончания срока]. Я также хотел бы использовать более старые термины, если это возможно. Если у вас недостаточно данных для этого, возможно, вы можете попробовать метод повторной выборки, такой как начальная загрузка.

Я думаю, что самое важное, если у вас есть небольшой набор данных, это сохранение достаточного количества данных в качестве удержания, чтобы убедиться, что ваша окончательная модель стабильна.

Я думаю, когда вы все закончите, и у вас есть формула оценки, это будет довольно легко реализовать. Но да, вы все равно должны подключать еженедельные переменные x, которые вам понадобятся для вычисления балла - но это больше похоже на проблему сбора данных, а не на реализацию модели.

мистифицировать
источник

Обновление вероятности классификации в логистической регрессии во времени

Ответы: