Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный правый хвост для активных пользователей. Предсказания, которые у меня есть, похоже, не учитывают счетную природу результата: преобладают дробные концерты.
Я ничего не знаю о моделях. Я только наблюдать 6 различных предсказаний черного ящика у 1 , . , , , У 6 для каждого человека в месяц. У меня есть дополнительный год данных, которые не были у создателей моделей для оценки (хотя участники концерта остаются прежними), и я хотел бы оценить, где каждый из них работает хорошо (с точки зрения точности и точности). Например, может ли какая-то модель хорошо предсказать для часто посещающих концерты, но не подходит для дивана? Является ли прогноз на январь лучше, чем прогноз на декабрь? В качестве альтернативы было бы неплохо знать, что прогнозы позволяют мне правильно оценивать людей с точки зрения фактических данных, даже если точной величине нельзя доверять.
Моей первой мыслью было запустить регрессии с фиксированными эффектами фактических значений для прогнозируемых и временных манекенов и посмотреть RMSE или для каждой модели. Но это не отвечает на вопрос о том, где хорошо работает каждая модель или существенны ли различия (если я не начну RMSE). Распределение результатов также беспокоит меня с этим подходом.
Моя вторая идея состояла в том, чтобы разбить результат на 0, 1-3 и 3+ и вычислить матрицу путаницы, но это игнорирует измерение времени, если я не сделаю 12 из них. Это также довольно грубо.
Мне известны команды Stata concord
от TJ Steichen и NJ Cox - у которых есть by()
опция, но для этого потребуется свертка данных до итоговых сумм за год. Это вычисляет Индекс корреляции соответствия Лин с доверительными интервалами, среди других полезных характеристик. CCC находится в диапазоне от -1 до 1, с идеальным соглашением в 1.
Есть также Харрелла (рассчитанный через
Р. Ньюсона), у которого есть опция, но я не уверен, что позволил бы мне иметь дело с данными панели. Это дает вам доверительные интервалы. C Харрелла является обобщением области под кривой ROC (AUC) для непрерывного результата. Это пропорция всех пар, которые можно упорядочить так, чтобы у субъекта с более высоким прогнозом на самом деле был более высокий результат. Таким образом, с = 0,5 для случайных предсказаний, с = 1 для совершенно отличительной модели. См . Книгу Харрелла , стр.493.somersd
cluster
Как бы вы решили эту проблему? Вы бы предложили рассчитывать статистику, такую как MAPE, которая часто используется в прогнозировании?
Полезные вещи, найденные до сих пор:
- Слайды по многократной версии коэффициента корреляции Лина
источник
Ответы:
Для оценки прогнозирующей способности полумарковского прогноза существует ряд доступных методов в зависимости от размера выборки и другой доступной информации.
Для оценки любой прогнозирующей / прогнозной модели у вас есть возможность перекрестной проверки (в частности, перекрестная проверка с выборкой по принципу «оставь один раз» или «итеративная разделенная выборка»), когда модель оценивается в «обучающей» выборке, а неопределенность модели оценивается в «проверке». образец. В зависимости от распределения результатов доступен ряд мер, с помощью которых вы можете выбрать модель из группы подходящих моделей. Для общих непараметрических мер для выбора модели людям действительно нравятся AIC и BIC, особенно последние.
CCC и c-статистика используются для оценки бинарных прогнозов поперечного сечения, например, из тестов / анализов, поэтому вам придется исключить их, например, если вы прогнозируете BMI или IQ. Они измеряют калибровку (например, тест Хосмера Лемешоу) и то, что называется способностью стратификации риска. Никакой интуитивной связи с постоянными результатами нет, по крайней мере, насколько я могу судить.
RMSE, с другой стороны, используется для оценки непрерывных прогнозов (за исключением случая прогнозирования риска, при котором RMSE называется оценкой Бриера, довольно архаичным и устаревшим инструментом оценки модели). Это отличный инструмент, и, вероятно, он используется для калибровки более 80% прогнозирующих моделей, с которыми мы сталкиваемся ежедневно (прогнозы погоды, энергетические рейтинги, MPG для транспортных средств и т. Д.).
Предостережение в проверке раздельной выборки или повторной выборке для оценки моделей прогноза заключается в том, что вас могут интересовать будущие результаты только тогда, когда ваша выборка оставляет вас в прогнозировании прошлых результатов. Не делай этого! Это не отражает применение моделей и может сильно повлиять на выбор негативно. Продвигайте всю доступную информацию и прогнозируйте будущие, ненаблюдаемые результаты во всех доступных случаях.
Практически любая книга по прикладным линейным моделям будет охватывать прогнозирование, среднеквадратическое отклонение и нюансы обучения и проверки моделей. Хорошим началом могли бы стать Катнер, Нахтсхайм, Нетер, Ли, которые также рассмотрели «Анализ временных рядов» Диггла, Диггл Хегерти Зегер Ли, «Анализ продольных данных» и потенциально «Стратегии регрессионного моделирования» Харрелла.
источник