Во-первых, он дает вероятность результатов. Так, например, его прогнозы на выборах в США в настоящее время составляют 82% Клинтона против 18% Трампа.
Теперь, даже если Трамп выиграет, как я узнаю, что выиграть должен был не только 18% времени?
Другая проблема заключается в том, что его вероятности меняются со временем. Итак, 31 июля между Трампом и Клинтоном было почти 50 на 50.
Мой вопрос заключается в том, что, учитывая, что у него каждый день разная вероятность для одного и того же будущего события с одним и тем же исходом, как я могу измерить, насколько точным он был для каждого дня, когда он сделал прогноз, основываясь на информации, которая была доступна до этого дня?
forecasting
prediction
validation
accuracy
scoring-rules
Суп из динозавров
источник
источник
Ответы:
Вероятностные прогнозы (или, как их еще называют, прогнозы плотности) можно оценивать с использованием правил оценки , то есть функций, которые отображают прогноз плотности и наблюдаемый результат в так называемую оценку, которая минимизируется в ожидании, если прогноз плотности на самом деле это истинная плотность, которая должна быть предсказана. Правильные правила оценки - это правила оценки, которые сводятся к минимуму в ожидании только истинной плотности в будущем.
Существует довольно много таких правильных правил оценки, начиная с Brier (1950, Monthly Weather Review ) в контексте вероятностного прогнозирования погоды. Czado et al. (2009, Biometrics ) дают более свежий обзор для дискретного случая. Gneiting & Katzfuss (2014, Ежегодный обзор статистики и ее применения ) дают обзор вероятностного прогнозирования в целом - в частности, Gneiting очень активно продвигал причину правильных правил подсчета очков.
Тем не менее, правила подсчета немного трудно интерпретировать, и они действительно только помогают сравнивать множественные вероятностные прогнозы - лучше тот, который имеет более низкий балл. До изменения выборки, то есть всегда лучше иметь много прогнозов для оценки, чьи оценки мы бы усреднили.
Как включить «обновление» прогнозов Серебра или других - хороший вопрос. Мы можем использовать правила оценки для сравнения «снимков» различных прогнозов в определенный момент времени или даже взглянуть на вероятностные прогнозы Сильвер с течением времени и рассчитать оценки в каждый момент времени. Можно надеяться, что оценка становится все ниже и ниже (то есть прогнозы плотности становятся все лучше и лучше), чем ближе фактический результат.
источник
В книге Нейта Сильвера « Сигнал и шум» он пишет следующее, что может дать некоторое представление о вашем вопросе:
Так что это поднимает несколько пунктов. Прежде всего, как вы правильно заметили, вы действительно не можете делать никаких выводов о качестве единственного прогноза по результату события, которое вы прогнозируете. Лучшее, что вы можете сделать, это посмотреть, как ваша модель работает в течение многих предсказаний.
Еще одна важная вещь, о которой стоит подумать, это то, что прогнозы, которые дает Нейт Сильвер, являются не самим событием, а распределением вероятности события. Так что в случае президентской гонки он оценивает распределение вероятностей победы Клинтона, Трампа или Джонсона в гонке. Таким образом, в этом случае он оценивает полиномиальное распределение.
Но он на самом деле предсказывает гонку на более детальном уровне. Его прогнозы оценивают распределение вероятностей в процентах голосов, которые каждый кандидат получит в каждом штате. Таким образом, если мы рассмотрим 3 кандидата, это может характеризоваться случайным вектором длины 51 * 3 и принятием значений в интервале [0, 1], с учетом ограничения, что пропорции суммируют 1 для пропорций внутри состояния. Число 51 объясняется тем, что в других 50 штатах + округ Колумбия (и на самом деле я думаю, что на самом деле это несколько больше, потому что некоторые штаты могут разделить свои голоса в коллегиях выборщиков), а число 3 связано с количеством кандидатов.
Теперь у вас нет большого количества данных, чтобы оценить его прогнозы - он предоставил прогнозы только для трех последних выборов, о которых я знаю (было ли больше?). Поэтому я не думаю, что есть какой-то способ честно оценить его модель, если вы на самом деле не имели модель в руках и не могли оценить ее, используя смоделированные данные. Но есть еще несколько интересных вещей, на которые вы могли бы взглянуть. Например, я думаю, что было бы интересно посмотреть, насколько точно он предсказал пропорции голосования по штатам в конкретный момент времени, например, через неделю после выборов. Если вы повторите это для нескольких временных моментов, например, на неделю, на месяц, на 6 и на год, то вы могли бы представить довольно интересную экспозицию для его предсказаний. Одно важное предостережение: результаты сильно коррелируют между штатами в рамках выборов, поэтому вы не можете сказать, что у вас есть 51 штат * 3 независимых прогноза выборов (т. е. если модель недооценивает эффективность кандидатов в одном штате, она будет также недооценивать и в других штатах) , Но, может быть, я все равно подумаю об этом так, чтобы у вас было достаточно данных, чтобы сделать что-то значимое.
источник
Для любого единственного предсказания, которое вы не можете, больше, чем мы можем сказать, является ли утверждение «эта монета имеет 60% вероятности выпадения головы» близким к правильному с одного броска.
Тем не менее, вы можете оценить его методологию по многим прогнозам - для определенных выборов он делает много прогнозов, не только о президентской гонке в целом, но и о многих прогнозах, касающихся голосования за президента и многих других рас (палата представителей, сенат, губернаторский состав). и так далее), и он также использует широко похожие методологии с течением времени.
Есть много способов сделать эту оценку (некоторые довольно сложные), но мы можем взглянуть на некоторые относительно простые способы получить некоторое представление об этом. Например, вы можете разбить прогнозы вероятности выигрыша на полосы, например (50-55%, 55-65% и т. Д.), А затем посмотреть, какая доля прогнозов в этой полосе подошла; доля 50-55% предсказаний, которые сработали, должна быть где-то между 50-55% в зависимости от того, где было среднее значение (плюс запас для случайного отклонения *).
Таким образом, с помощью этого подхода (или различных других подходов) вы можете видеть, было ли распределение результатов в соответствии с прогнозами на выборах или на нескольких выборах (если я правильно помню, я думаю, что его прогнозы были чаще правильными, чем следовало бы) , что говорит о том, что его стандартные ошибки в среднем были немного завышены).
* мы должны быть осторожны с тем, как это оценить, хотя прогнозы не являются независимыми.
источник