Метрика оценки прогноза для панельных / продольных данных

Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный правый хвост для активных пользователей. Предсказания, которые у меня есть, похоже, не учитывают счетную природу результата: преобладают дробные концерты. $n=$ $T=$

Я ничего не знаю о моделях. Я только наблюдать 6 различных предсказаний черного ящика для каждого человека в месяц. У меня есть дополнительный год данных, которые не были у создателей моделей для оценки (хотя участники концерта остаются прежними), и я хотел бы оценить, где каждый из них работает хорошо (с точки зрения точности и точности). Например, может ли какая-то модель хорошо предсказать для часто посещающих концерты, но не подходит для дивана? Является ли прогноз на январь лучше, чем прогноз на декабрь? В качестве альтернативы было бы неплохо знать, что прогнозы позволяют мне правильно оценивать людей с точки зрения фактических данных, даже если точной величине нельзя доверять. $\hat y_1,...,\hat y_6$

Моей первой мыслью было запустить регрессии с фиксированными эффектами фактических значений для прогнозируемых и временных манекенов и посмотреть RMSE или для каждой модели. Но это не отвечает на вопрос о том, где хорошо работает каждая модель или существенны ли различия (если я не начну RMSE). Распределение результатов также беспокоит меня с этим подходом. $R^2$

Моя вторая идея состояла в том, чтобы разбить результат на 0, 1-3 и 3+ и вычислить матрицу путаницы, но это игнорирует измерение времени, если я не сделаю 12 из них. Это также довольно грубо.

Мне известны команды Stata concordот TJ Steichen и NJ Cox - у которых есть by()опция, но для этого потребуется свертка данных до итоговых сумм за год. Это вычисляет Индекс корреляции соответствия Лин с доверительными интервалами, среди других полезных характеристик. CCC находится в диапазоне от -1 до 1, с идеальным соглашением в 1.

Есть также Харрелла (рассчитанный через Р. Ньюсона), у которого есть опция, но я не уверен, что позволил бы мне иметь дело с данными панели. Это дает вам доверительные интервалы. C Харрелла является обобщением области под кривой ROC (AUC) для непрерывного результата. Это пропорция всех пар, которые можно упорядочить так, чтобы у субъекта с более высоким прогнозом на самом деле был более высокий результат. Таким образом, для случайных предсказаний, для совершенно отличительной модели. См . Книгу Харрелла , стр.493. $c$ somersdcluster $c=0.5$ $c=1$

Как бы вы решили эту проблему? Вы бы предложили рассчитывать статистику, такую как MAPE, которая часто используется в прогнозировании?

Полезные вещи, найденные до сих пор:

Слайды по многократной версии коэффициента корреляции Лина

repeated-measures predictive-models stata panel-data validation Димитрий Васильевич Мастеров
источник

Нам нужно больше узнать о поведении, является ли оно порядковым / двоичным / непрерывным значением? Поскольку этот эксперимент продольный, ваш интерес заключается в прогнозировании или прогнозировании результатов у человека? Модели смешанных эффектов используются для вывода, а не для прогнозирования. Они не работают, потому что для прогнозирования вам нужна оценка случайного эффекта.

AdamO

Фактическое поведение имеет значение или непрерывно. Все прогнозы непрерывны. Я хотел бы видеть, насколько хороши ежемесячные прогнозы на индивидуальном уровне.

Дмитрий Васильевич Мастеров

\hat{Y_{i = 12}} = f (X_{i = 12, 11, \dots, 1}, Y_{i = 11, 10, \dots, 1}

$\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$

\hat{Y_{i = I}} = f (X_{i = I, I - 1, \dots, 1}, Y_{i = I - 1, I - 2, \dots, 1}

$\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$

\hat{Y_{i}} = f (X_{i})

$\widehat{Y_{i}} = f(X_{i})$

i

$i$

{\hat{Y}}_{i, 1} = f (Y_{i, t - 1}, X_{i, t}) .

$\hat Y_{i,1}=f(Y_{i,t-1},X_{i,t}).$

{\hat{Y}}_{i, 2} = f ({\hat{Y}}_{i, 1}, X_{i, 2})

$\hat Y_{i,2}=f(\hat Y_{i,1},X_{i,2})$

Y_{i, t}

$Y_{i,t}$

{\hat{Y}}_{i, t}

$\hat Y_{i,t}$

оценка подразумевает оценку параметров, которая может быть частью «обучения» для прогнозной модели, но я думаю, что вы хотите сказать, что ваша выборка используется для обучения прогнозной модели. То, что вы здесь указываете, является условным полумарковским процессом и имеет уникальные приложения в прогнозировании.

AdamO

Для оценки прогнозирующей способности полумарковского прогноза существует ряд доступных методов в зависимости от размера выборки и другой доступной информации.

Для оценки любой прогнозирующей / прогнозной модели у вас есть возможность перекрестной проверки (в частности, перекрестная проверка с выборкой по принципу «оставь один раз» или «итеративная разделенная выборка»), когда модель оценивается в «обучающей» выборке, а неопределенность модели оценивается в «проверке». образец. В зависимости от распределения результатов доступен ряд мер, с помощью которых вы можете выбрать модель из группы подходящих моделей. Для общих непараметрических мер для выбора модели людям действительно нравятся AIC и BIC, особенно последние.

CCC и c-статистика используются для оценки бинарных прогнозов поперечного сечения, например, из тестов / анализов, поэтому вам придется исключить их, например, если вы прогнозируете BMI или IQ. Они измеряют калибровку (например, тест Хосмера Лемешоу) и то, что называется способностью стратификации риска. Никакой интуитивной связи с постоянными результатами нет, по крайней мере, насколько я могу судить.

RMSE, с другой стороны, используется для оценки непрерывных прогнозов (за исключением случая прогнозирования риска, при котором RMSE называется оценкой Бриера, довольно архаичным и устаревшим инструментом оценки модели). Это отличный инструмент, и, вероятно, он используется для калибровки более 80% прогнозирующих моделей, с которыми мы сталкиваемся ежедневно (прогнозы погоды, энергетические рейтинги, MPG для транспортных средств и т. Д.).

Предостережение в проверке раздельной выборки или повторной выборке для оценки моделей прогноза заключается в том, что вас могут интересовать будущие результаты только тогда, когда ваша выборка оставляет вас в прогнозировании прошлых результатов. Не делай этого! Это не отражает применение моделей и может сильно повлиять на выбор негативно. Продвигайте всю доступную информацию и прогнозируйте будущие, ненаблюдаемые результаты во всех доступных случаях.

Практически любая книга по прикладным линейным моделям будет охватывать прогнозирование, среднеквадратическое отклонение и нюансы обучения и проверки моделей. Хорошим началом могли бы стать Катнер, Нахтсхайм, Нетер, Ли, которые также рассмотрели «Анализ временных рядов» Диггла, Диггл Хегерти Зегер Ли, «Анализ продольных данных» и потенциально «Стратегии регрессионного моделирования» Харрелла.

Adamo
источник

CCC и Harrell's c могут использоваться с постоянными результатами. КТС также имеет многократную реализацию мер. Смотрите ссылки / ссылки, которые я добавил в вопросе.

Дмитрий Владимирович Мастеров

Не имеет значения Вы не классифицируете.

AdamO

Метрика оценки прогноза для панельных / продольных данных

Ответы: