Поскольку выборы - одноразовое событие, это не эксперимент, который можно повторить. Так что же технически означает утверждение «Хиллари имеет 75% шанс на победу» ? Я ищу статистически правильное определение, а не интуитивное или концептуальное.
Я - любитель статистики, который пытается ответить на этот вопрос, который возник в ходе обсуждения. Я почти уверен, что есть хороший объективный ответ, но я не могу придумать это сам ...
probability
prediction
politics
pitosalas
источник
источник
Ответы:
Все представленные ответы полезны, но они не очень статистически точны, так что я попробую. В то же время я собираюсь дать общий ответ, а не фокусироваться на этих выборах.
Первое, что нужно иметь в виду, когда мы пытаемся ответить на вопросы о реальных событиях, таких как победа Клинтона на выборах, в отличие от вымышленных математических задач, таких как вынимание шариков разных цветов из урны, заключается в том, что t единственный разумный способ ответить на вопрос и, следовательно, не единственный разумный ответ. Если кто-то просто говорит, что «Хиллари имеет 75% -ный шанс на победу», и не будет описывать свою модель выборов, данные, которые он использовал для своих оценок, результаты проверки своей модели, свои исходные предположения, Имеется в виду народное голосование или голосование на выборах и т. д., тогда они на самом деле не сказали вам, что они имеют в виду, а тем более предоставили достаточно информации, чтобы вы могли оценить, насколько их прогноз хорош. Кроме того, это не
Итак, какие процедуры может использовать статистик для оценки шансов Клинтона? В самом деле, как они могут решить проблему? На высоком уровне существуют различные понятия самой вероятности, два из наиболее важных из которых - частые и байесовские.
Согласно частому представлению, вероятность представляет собой предельную частоту события в течение многих независимых испытаний одного и того же эксперимента, как в законе больших чисел (сильных или слабых). Даже если какие-то конкретные выборы являются уникальным событием, их результат можно рассматривать как результат бесконечной совокупности исторических и гипотетических событий, которые могут включать все выборы президента США или все выборы в мире в 2016 году или что-то еще. Шанс 75% на победу в Клинтоне означает, что если - это последовательность результатов (0 или 1) независимых выборов, которые полностью эквивалентны этим выборам, если говорить о нашей модели, то выборочное среднее значение сходится по вероятности к 0,75 какX 1 , X 2 , … , X n nX1,X2,… X1,X2,…,Xn n уходит в бесконечность.
С точки зрения байесовской вероятности вероятность представляет собой степень правдоподобности или достоверности (которая может быть или не быть фактической верой, в зависимости от того, являетесь ли вы субъективистом байесовским). Шанс 75% на победу Клинтон означает, что она на 75% вероятна, что она победит. Кредиты, в свою очередь, могут выбираться свободно (на основе ранее существовавших убеждений модели или аналитика) в рамках ограничений основных законов вероятности (таких как теорема Байеса и тот факт, что вероятность совместного события не может превышать предельную вероятность любого из компонент событий). Один из способов обобщить эти законы состоит в том, что если вы делаете ставки на исход события, предлагая игрокам шансы в соответствии с вашими надеждами, то ни один игрок не может создать голландскую книгупротив вас, то есть набор ставок, который гарантирует, что вы потеряете деньги, независимо от того, как на самом деле происходит событие.
Независимо от того, принимаете ли вы частые или байесовские взгляды на вероятность, еще предстоит принять много решений о том, как анализировать данные и оценивать вероятность. Возможно, самый популярный метод основан на параметрических моделях регрессии, таких как линейная регрессия. В этой настройке аналитик выбирает параметрическое семейство распределений (то есть вероятностных мер ), которое индексируется вектором чисел, называемым параметрами. Каждый результат представляет собой независимую случайную переменную, взятую из этого распределения, преобразованную в соответствии с ковариатами, которые являются известными значениями (такими как уровень безработицы), которые аналитик хочет использовать для прогнозирования результата. Аналитик выбирает оценки значений параметров, используя данные и критерий соответствия модели, такой как наименьшие квадратыили максимальная вероятность . Используя эти оценки, модель может произвести прогнозирование результата (возможно, только одно значение, возможно , интервал или другой набор значений) для любого заданного значения ковариат. В частности, он может предсказать исход выборов. Помимо параметрических моделей, существуют непараметрические модели (то есть модели, определяемые семейством распределений, индексируемых бесконечно длинным вектором параметров), а также методы выбора прогнозируемых значений, в которых не используется модель, из которой вообще были сгенерированы данные. такие как классификаторы ближайшего соседа и случайные леса .
Составление прогнозов - это одно, но как узнать, хороши ли они? Ведь достаточно неточные прогнозы хуже бесполезных. Тестирование прогнозов является частью более широкой практики проверки модели, то есть количественной оценки того, насколько хороша данная модель для данной цели. Двумя популярными методами проверки прогнозов являются перекрестная проверка и разбиение данных на подмножества обучения и тестирования перед подборкой любых моделей. В той степени, в которой выборы, включенные в данные, являются репрезентативными для президентских выборов в США 2016 года, оценки точности прогнозирования, которые мы получаем из проверки прогнозов, сообщат нам, насколько точным будет наш прогноз относительно президентских выборов 2016 года в США.
источник
Когда статистики хотят предсказать бинарный результат (Хиллари выигрывает против Хиллари не выигрывает), они воображают, что вселенная подбрасывает воображаемую монету - Головы, Хиллари выигрывает; хвосты она теряет. Для некоторых статистиков монета представляет степень их веры в результат; для других монета представляет то, что может произойти, если мы вновь и вновь возобновим выборы при одних и тех же обстоятельствах. С философской точки зрения, трудно понять, что мы имеем в виду, когда говорим о неопределенных будущих событиях, даже до того, как мы включим в них числа. Но мы можем посмотреть, откуда исходит число.
На данный момент на выборах, у нас есть последовательность результатов опроса. Они имеют форму: 1000 человек были опрошены, скажем, в Огайо. 40% поддерживают Трампа, 39% поддерживают Хиллари, 21% не определились. Были бы аналогичные опросы на предыдущих выборах для соответствующих кандидатов от демократов, республиканцев (и других партийных). За предыдущие годы также есть результаты. Возможно, вы знаете, что, скажем, кандидаты, получившие 40% голосов в опросе в июле, выиграли 8 из 10 предыдущих выборов. Или результаты могли бы сказать, что на 7 из 10 выборов демократы взяли Огайо. Вы можете знать, как Огайо сравнивается с Техасом (возможно, они никогда не выбирают одного и того же кандидата) - у вас может быть информация о том, как распадается нерешенное голосование - и у вас могут быть интересные модели того, что происходит, когда кандидат начинает «расти».
Поэтому, когда вы принимаете во внимание предыдущие выборы, вы можете сказать, что избирательная монета уже была брошена несколько раз. Одни и те же выборы не проводятся повторно каждые 4 года, но мы можем делать вид, что это своего рода. Из всей этой информации, опросы общественного мнения строят сложные модели, чтобы предсказать результат в этом году.
Вероятность победы Хиллари в 75% зависит от нашего уровня знаний "сегодня". Это говорит о том, что кандидат с результатами опроса, которые она имеет «сейчас», в тех штатах, в которых она у них есть, и с учетом тенденций в ее опросах на протяжении всей кампании, побеждает на выборах через 3 года из 4. Из месяца Теперь ее вероятность выигрыша будет меняться, потому что модель будет основана на состоянии опросов в августе.
В истории США не было статистически большого количества выборов, тем более с момента начала голосования. Мы также не можем быть уверены, что тенденции опроса, скажем, с 70-х годов, все еще применяются. Так что все немного хитроумно.
Суть в том, что Хиллари должна начать работу над своей инаугурационной речью.
источник
Когда статистики говорят это, они не имеют в виду предел победы или долю голосов. Они проводят большое количество симуляций выборов и подсчитывают, какой процент голосов набирает каждый кандидат. Для многих надежных президентских моделей у них есть прогнозы для каждого штата. Некоторые из них близки, и если гонка будет проходить несколько раз, оба кандидата могут выиграть. Поскольку интервалы прогнозирования многократно перекрывают предел победы 0, это не бинарный ответ, а симуляция скажет нам более точно, чего ожидать.
Страница методологии FiveThirtyEight может помочь немного понять, что скрывается под капотом: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
источник
Есть эпизод радио freakonomics, который очень актуален для этого вопроса (в общем, не в специфике выборов). В нем Стивен Дубнер берет интервью у руководителя оборонного ведомства США, чтобы определить лучший способ прогнозировать глобальные политические события.
Затем они обсуждают, что не делать
Затем в эпизоде рассматриваются методологии, которые наиболее успешные синоптики использовали для оценки этих вероятностей, отстаивая неформальный байесовский подход.
Эпизод называется « Как быть менее страшным при предсказании будущего» , и это очень забавное слушание. Я призываю вас проверить это, если вы заинтересованы в такого рода вещах!
источник
Выборы 2016 года действительно одноразовые. Но так же, как подбрасывание монеты или бросок кубика.
Когда кто-то утверждает, что знает, что у кандидата есть 75% шанс на победу, он не предсказывает результат. Они утверждают, что знают форму кубика.
Исход выборов не может сделать это недействительным. Но если модель, которую они используют для достижения 75%, проверена на многих выборах, то можно показать, что она имеет ограниченную прогностическую ценность. Или это может быть рождено как ценное.
Конечно, когда кандидатам известен ценный предиктор, они могут изменить свое поведение, и модель можно сделать неактуальной. Или это может быть взорвано все непропорционально. Просто посмотрите, что происходит в Айове.
источник
Когда кто-то говорит, что «Хиллари имеет 75% шанс на выигрыш», это означает, что если вы предложите ему ставку, в которой один человек получает 25 долларов, если Хиллари выиграет, а другой человек получает 75 долларов, если Хиллари не выиграет, они считают, что справедливая ставка и нет особой причины отдавать предпочтение любой из сторон.
Эти проценты обычно поступают с рынков прогнозирования. Они суммируют всю доступную информацию и, как правило, превосходят аналитические методы прогнозирования большинства событий.
Прогнозные рынки дают людям возможность делать ставки на то, произойдет ли конкретное событие. Вознаграждения устанавливаются путем переговоров между людьми по обе стороны предложения. Как правило, люди, обладающие специальными знаниями о предложении, будут пытаться использовать эти знания для зарабатывания денег, что имеет побочный эффект от утечки этой информации.
Например, предположим, что существует рынок предсказаний того, доживет ли конкретная знаменитость до конца этого года. Публика знает возраст знаменитости, и любой может узнать основную вероятность того, что знаменитость умрет к концу года. Если бы это было все, что было известно, вы бы ожидали, что люди будут готовы делать ставки на одну или другую сторону этого предложения с примерно такой вероятностью.
Теперь предположим, что кто-то знал, что у знаменитости плохое здоровье, но скрывал это. Или даже сказать, что многие люди знали, что у семьи этой знаменитости была болезнь сердца, которая снизила бы их шансы на выживание. Люди с этой информацией будут готовы принять одну из сторон этого предложения, что приведет к корректировке ставки так же, как покупатели повышают цену акций, а продавцы понижают ее.
Другими словами, когда шансы слишком малы, люди, которые хотят получить прибыль, увеличивают их. И когда они слишком высоки, люди, которые хотят получить прибыль, отталкивают их. Цена ставки, в конечном счете, отражает коллективную мудрость каждого в отношении шансов, возникающих в результате предложения, точно так же, как все цены отражают коллективную мудрость в отношении стоимости и ценности вещей.
источник
Ключевой вопрос заключается в том, как назначить вероятность уникальному событию. Ответ заключается в том, что вы разрабатываете модель, по которой она больше не является уникальной. Я думаю, что более простой пример - какова вероятность смерти президента при исполнении служебных обязанностей? Вы можете рассматривать президента как человека определенного возраста, человека определенного возраста и пола. И т.д. ... каждая модель дает вам разные прогнозы ... априори нет правильной модели ... это зависит от статистики, чтобы выбрать, какая модель является наиболее подходящей.
источник
Учитывая, что опросы показывают очень жесткую гонку, 75% могут быть или не быть точными.
Вы спрашиваете, что это значит, а не как они рассчитали это. Подразумевается, что (если мы игнорируем кого-то еще, кроме Клинтона и ее одного главного противника), вам нужно будет поставить 3 доллара, чтобы получить возврат в 4 доллара, если она выиграет. Альтернативно, ставка в 1 доллар на другого бегуна вернула бы 4 доллара, если он выиграл.
Мой ответ проводит небольшое различие между реальным шансом на победу любого кандидата и тем, что ожидают люди (игроки или шансы). Я подозреваю, что когда вы видите такие цифры, например 75%, вы видите цифры производителей коэффициентов, когда вы видите 49-48%, вы видите результаты опросов.
источник
Если они делают это правильно, что-то происходит примерно три четверти тех случаев, когда они говорят, что вероятность этого составляет 75%. (или, в более общем плане, одна и та же идея адаптирована ко всем процентным прогнозам)
Можно приписать большее значение, чем это, в зависимости от наших философских мнений и от того, насколько мы верим моделям, но эта прагматическая точка зрения является чем-то вроде наименьшего общего знаменателя - по крайней мере, статистические методы пытаются (хотя, возможно, в качестве стороны эффект, а не напрямую) делать прогнозы, подчиняясь этой прагматической точке зрения.
источник