Как сравнить точность двух разных моделей, используя статистическую значимость

10

Я работаю над прогнозированием временных рядов. У меня есть два набора данных: и . У меня есть три модели прогнозирования: M1, M2, M3 . Все эти модели обучаются с использованием выборок в наборе данных D1 , и их производительность измеряется с использованием выборок в наборе данных D2 . Допустим, показатели производительности MSE (или что-нибудь еще). MSE этих моделей при измерении для набора данных D2 - MSE_1, MSE_2 и MSE_3 . Как я могу проверить, что улучшение одной модели над другой является статистически значимым.D1знак равно{Икс1,Икс2,,,,,ИксN}D2знак равно{ИксN+1,ИксN+2,ИксN+3,,,,,,ИксN+К}M1,M2,M3D1D2S E 1D2MSЕ1,MSЕ2,MSЕ3

Например, допустим, что MSЕ1знак равно200 , MSЕ2знак равно205 , MSЕ3знак равно210 , а общее количество выборок в наборе данных D2 на основании которых рассчитываются эти MSE, равно 2000. Как я могу проверить, что MSЕ1 , MSЕ2 и MSЕ3 значительно отличаются , Я был бы очень признателен, если кто-нибудь может помочь мне в этой проблеме.

Mashud
источник

Ответы:

1

Один из приведенных выше постов ссылается на использование теста отношения правдоподобия, хотя ваши модели должны быть вложены друг в друга, чтобы это работало (т.е. все параметры в одной из моделей должны присутствовать в модели, с которой вы тестируете ее) ,

RMSE - это показатель того, насколько хорошо модель соответствует данным. Тем не менее, также как и отношение правдоподобия. По словам миссис Чен, вероятность для данного человека - это вероятность того, что у человека со всеми ее параметрами был тот результат, который у нее был. Совместная вероятность набора данных - это вероятность миссис Чен * вероятность миссис Гундерсен * вероятность миссис Джонсон * ... и т. Д.

Я не думаю, что добавление ковариаты или любого числа ковариат не может реально ухудшить отношение правдоподобия. Но это может улучшить отношение правдоподобия на незначительную величину. Модели, которые подходят лучше, будут иметь более высокую вероятность. Вы можете официально проверить, подходит ли модель A к модели B. У вас должна быть какая-то функция тестирования LR, доступная в любом используемом вами программном обеспечении, но в основном статистика теста LR равна -2 * разница логарифмов правдоподобия, и она распределяется по хи-квадрат с df = разница в числе параметров.

Также приемлемо сравнение AIC или BIC двух моделей и нахождение самой низкой. AIC и BIC - это логарифмические правдоподобия, оштрафованные за количество параметров.

Я не уверен в использовании t-теста для RMSE, и я бы на самом деле опирался на него, если вы не найдете теоретическую работу, которая была проделана в этой области. По сути, вы знаете, как значения RMSE асимптотически распределяются? Я не уверен. Некоторое дальнейшее обсуждение здесь:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

Вейвен Нг
источник
0

Этот ответ не учитывает тот факт, что ваши данные образуют временные ряды, но я не думаю, что это будет проблемой.

При использовании RMSE в этом посте предлагается использовать t-тест: Проверка значимости RMSE моделей

Вы также можете использовать корреляцию Пирсона, чтобы оценить свою форму. Согласно этому посту, вы можете использовать t-критерий Вулфа для этого: Статистическая значимость увеличения корреляции

Я сейчас пытаюсь узнать об этой же проблеме. Буду признателен за более подробные ответы сам.

Buechel
источник
0

Есть два основных способа сделать это, но сначала я оспорю идею, что вы хотите выбрать только один. Скорее всего, ансамблевая модель из трех отдельных моделей достигнет наилучших результатов из всех.

Основной, возможно, лучший способ сделать это - использовать модель для получения доверительных интервалов вокруг метрики оценки. Обычно это делается с помощью начальной загрузки ( или начальной загрузки Пуассона ).

Другой способ - использовать статистический тест. Каждый тест предполагает разные предположения, и они часто используются для сравнения значения или выборки, взятой из распределения, а не оценки по одной точке. Многие из этих статистических тестов формально требуют независимости, которой обычно нет при сравнении нескольких результатов одной и той же модели или нескольких моделей с данными временных рядов.

В частности, для прогнозирования временных рядов вы должны проводить тестирование на истории с перекрестной проверкой и оценивать ошибки обучения и тестирования каждый раз ( пример ). Когда вы сделаете это, я сомневаюсь, что все ваши модели будут работать так же, что вам потребуется статистический тест для дифференциации; скорее всего, вы увидите большие различия.

Также обратите внимание, что исторические показатели оценки (сравнение фактических данных с прогнозом) сами по себе недостаточны для прогнозной оценки. Учитывая два предсказания, которые идеально соответствуют известным историческим данным, но одно также совпадает с предыдущими представлениями о будущем, а другое явно нарушает (например, если одно исчезает до нуля, но у вас есть основания полагать, что этого не произойдет), вы предпочтете прогноз это лучше соответствует вашему предшествующему.

Майкл Брандаж
источник