Проще говоря, у меня есть около миллиона записей, которые записывают время входа и выхода людей в системе, охватывающей около десяти лет. У каждой записи есть время входа, но не у каждой записи есть время выхода. Среднее время в системе составляет ~ 1 год.
Отсутствующие времена выхода происходят по двум причинам:
- Человек не покинул систему во время сбора данных.
- Время выхода человека не было записано. Об этом говорят 50% записей
Интересующие вопросы:
- Люди проводят меньше времени в системе, и сколько времени.
- Записывается ли больше времени выхода и сколько.
Мы можем смоделировать это, сказав, что вероятность того, что выход будет записан, линейно изменяется во времени, и что время в системе имеет Вейбулла, параметры которого линейно изменяются во времени. Затем мы можем сделать оценку максимального правдоподобия различных параметров и оценить результаты и посчитать их правдоподобными. Мы выбрали распределение Вейбулла, потому что оно, похоже, используется для измерения времени жизни, и интересно сказать, а не подгонять данные лучше, чем гамма-распределение.
Куда мне обратиться, чтобы получить представление о том, как это сделать правильно? Мы немного математически подкованы, но не очень подкованы.
источник
Вы можете использовать оценочную модель, чтобы предсказать время выхода для всех людей в вашей системе. Затем вы можете сравнить расчетное время выхода с фактическим временем выхода (где у вас есть эти данные) и вычислить такой показатель, как RMSE, чтобы оценить, насколько хороши ваши прогнозы, что, в свою очередь, даст вам ощущение соответствия модели. Смотрите также эту ссылку .
источник