Метрика оценки прогноза для панельных / продольных данных

11

Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный правый хвост для активных пользователей. Предсказания, которые у меня есть, похоже, не учитывают счетную природу результата: преобладают дробные концерты.n=T=

Я ничего не знаю о моделях. Я только наблюдать 6 различных предсказаний черного ящика у 1 , . , , , У 6 для каждого человека в месяц. У меня есть дополнительный год данных, которые не были у создателей моделей для оценки (хотя участники концерта остаются прежними), и я хотел бы оценить, где каждый из них работает хорошо (с точки зрения точности и точности). Например, может ли какая-то модель хорошо предсказать для часто посещающих концерты, но не подходит для дивана? Является ли прогноз на январь лучше, чем прогноз на декабрь? В качестве альтернативы было бы неплохо знать, что прогнозы позволяют мне правильно оценивать людей с точки зрения фактических данных, даже если точной величине нельзя доверять.Y^1,,,,,Y^6

Моей первой мыслью было запустить регрессии с фиксированными эффектами фактических значений для прогнозируемых и временных манекенов и посмотреть RMSE или для каждой модели. Но это не отвечает на вопрос о том, где хорошо работает каждая модель или существенны ли различия (если я не начну RMSE). Распределение результатов также беспокоит меня с этим подходом.р2

Моя вторая идея состояла в том, чтобы разбить результат на 0, 1-3 и 3+ и вычислить матрицу путаницы, но это игнорирует измерение времени, если я не сделаю 12 из них. Это также довольно грубо.

Мне известны команды Stata concordот TJ Steichen и NJ Cox - у которых есть by()опция, но для этого потребуется свертка данных до итоговых сумм за год. Это вычисляет Индекс корреляции соответствия Лин с доверительными интервалами, среди других полезных характеристик. CCC находится в диапазоне от -1 до 1, с идеальным соглашением в 1.

Есть также Харрелла (рассчитанный через Р. Ньюсона), у которого есть опция, но я не уверен, что позволил бы мне иметь дело с данными панели. Это дает вам доверительные интервалы. C Харрелла является обобщением области под кривой ROC (AUC) для непрерывного результата. Это пропорция всех пар, которые можно упорядочить так, чтобы у субъекта с более высоким прогнозом на самом деле был более высокий результат. Таким образом, с = 0,5 для случайных предсказаний, с = 1 для совершенно отличительной модели. См . Книгу Харрелла , стр.493.сsomersdclusterсзнак равно0,5сзнак равно1

Как бы вы решили эту проблему? Вы бы предложили рассчитывать статистику, такую ​​как MAPE, которая часто используется в прогнозировании?


Полезные вещи, найденные до сих пор:

  • Слайды по многократной версии коэффициента корреляции Лина
Димитрий Васильевич Мастеров
источник
Нам нужно больше узнать о поведении, является ли оно порядковым / двоичным / непрерывным значением? Поскольку этот эксперимент продольный, ваш интерес заключается в прогнозировании или прогнозировании результатов у человека? Модели смешанных эффектов используются для вывода, а не для прогнозирования. Они не работают, потому что для прогнозирования вам нужна оценка случайного эффекта.
AdamO
Фактическое поведение имеет значение или непрерывно. Все прогнозы непрерывны. Я хотел бы видеть, насколько хороши ежемесячные прогнозы на индивидуальном уровне.
Дмитрий Васильевич Мастеров
Yязнак равно12^знак равное(Иксязнак равно12,11,,1,Yязнак равно11,10,,1Yязнак равноя^знак равное(Иксязнак равноя,я-1,,1,Yязнак равноя-1,я-2,,1Yя^знак равное(Икся)
яY^я,1знак равное(Yя,T-1,Икся,T),Y^я,2знак равное(Y^я,1,Икся,2)Yя,TY^я,T
оценка подразумевает оценку параметров, которая может быть частью «обучения» для прогнозной модели, но я думаю, что вы хотите сказать, что ваша выборка используется для обучения прогнозной модели. То, что вы здесь указываете, является условным полумарковским процессом и имеет уникальные приложения в прогнозировании.
AdamO

Ответы:

1

Для оценки прогнозирующей способности полумарковского прогноза существует ряд доступных методов в зависимости от размера выборки и другой доступной информации.

Для оценки любой прогнозирующей / прогнозной модели у вас есть возможность перекрестной проверки (в частности, перекрестная проверка с выборкой по принципу «оставь один раз» или «итеративная разделенная выборка»), когда модель оценивается в «обучающей» выборке, а неопределенность модели оценивается в «проверке». образец. В зависимости от распределения результатов доступен ряд мер, с помощью которых вы можете выбрать модель из группы подходящих моделей. Для общих непараметрических мер для выбора модели людям действительно нравятся AIC и BIC, особенно последние.

CCC и c-статистика используются для оценки бинарных прогнозов поперечного сечения, например, из тестов / анализов, поэтому вам придется исключить их, например, если вы прогнозируете BMI или IQ. Они измеряют калибровку (например, тест Хосмера Лемешоу) и то, что называется способностью стратификации риска. Никакой интуитивной связи с постоянными результатами нет, по крайней мере, насколько я могу судить.

RMSE, с другой стороны, используется для оценки непрерывных прогнозов (за исключением случая прогнозирования риска, при котором RMSE называется оценкой Бриера, довольно архаичным и устаревшим инструментом оценки модели). Это отличный инструмент, и, вероятно, он используется для калибровки более 80% прогнозирующих моделей, с которыми мы сталкиваемся ежедневно (прогнозы погоды, энергетические рейтинги, MPG для транспортных средств и т. Д.).

Предостережение в проверке раздельной выборки или повторной выборке для оценки моделей прогноза заключается в том, что вас могут интересовать будущие результаты только тогда, когда ваша выборка оставляет вас в прогнозировании прошлых результатов. Не делай этого! Это не отражает применение моделей и может сильно повлиять на выбор негативно. Продвигайте всю доступную информацию и прогнозируйте будущие, ненаблюдаемые результаты во всех доступных случаях.

Практически любая книга по прикладным линейным моделям будет охватывать прогнозирование, среднеквадратическое отклонение и нюансы обучения и проверки моделей. Хорошим началом могли бы стать Катнер, Нахтсхайм, Нетер, Ли, которые также рассмотрели «Анализ временных рядов» Диггла, Диггл Хегерти Зегер Ли, «Анализ продольных данных» и потенциально «Стратегии регрессионного моделирования» Харрелла.

Adamo
источник
CCC и Harrell's c могут использоваться с постоянными результатами. КТС также имеет многократную реализацию мер. Смотрите ссылки / ссылки, которые я добавил в вопросе.
Дмитрий Владимирович Мастеров
Не имеет значения Вы не классифицируете.
AdamO