Оригинальный вопрос (25.07.14): Имеет ли смысл эта цитата из новостных СМИ или есть лучший статистический способ просмотра потока недавних авиационных происшествий?
Однако Барнетт также обращает внимание на теорию распределения Пуассона, которая подразумевает, что короткие интервалы между авариями на самом деле более вероятны, чем длинные.
«Предположим, что в среднем происходит один несчастный случай со смертельным исходом в год, а это означает, что вероятность аварии в любой конкретный день - один из 365», - говорит Барнетт. «Если произошел сбой 1 августа, вероятность того, что следующий сбой произойдет через день 2 августа, составляет 1/365. Но вероятность следующего сбоя 3 августа составляет (364/365) x (1/365) потому что следующий сбой произойдет 3 августа, только если сбой не произошел 2 августа ".
«Это кажется нелогичным, но вывод неуклонно следует из законов вероятности», - говорит Барнетт.
Источник: http://www.bbc.com/news/magazine-28481060
Разъяснение (27/27/14): Что противоречит интуитивно (для меня), так это то, что редкие события имеют тенденцию происходить близко во времени. Интуитивно я думаю, что редкие события не произошли бы близко во времени. Может ли кто-нибудь указать мне на теоретическое или эмпирическое ожидаемое распределение времени между событиями в предположениях о распределении Пуассона? (То есть гистограмма, где ось Y - это частота или вероятность, а ось X - время между двумя последовательными событиями, сгруппированными по дням, неделям, месяцам или годам и т. П.) Спасибо.
Пояснение (28.07.14): заголовок подразумевает, что вероятность возникновения кластеров несчастных случаев выше, чем широко распространенных. Позволяет операционализировать это. Скажем, кластер - это 3 авиационных происшествия, и короткий период времени составляет 3 месяца, а длительный период - 3 года. Кажется нелогичным думать, что существует более высокая вероятность того, что 3 аварии произойдут в течение 3 месяцев, чем в течение 3 лет. Даже если мы воспринимаем первую аварию как данность, нелогично думать, что еще 2 аварии произойдут в течение следующих 3 месяцев по сравнению с последующими 3 годами. Если это правда, то заголовок средства массовой информации вводит в заблуждение и неверен. Я что-то пропустил?
источник
Ответы:
Резюме: первое предложение в цитируемом абзаце Би-би-си является неаккуратным и вводящим в заблуждение.
Несмотря на то, что предыдущие ответы и комментарии уже дали отличную дискуссию, я чувствую, что на главный вопрос не было получено удовлетворительного ответа.
Итак , давайте предположим , что вероятность авиакатастрофы в любой день является и что аварии не зависят друг от друга. Допустим также, что один самолет разбился 1 января. Когда произойдет следующая авиакатастрофа?р = 1 / 365
Что ж, давайте проведем простую симуляцию: для каждого дня в течение следующих трех лет я буду случайным образом решать, разбился ли другой самолет с вероятностью и отмечать день следующего крушения; Я повторю эту процедуру 100п раз. Вот итоговая гистограмма:100000
На самом деле, распределение вероятностей просто определяется как , где t - количество дней. Я обозначил это теоретическое распределение красной линией, и вы можете видеть, что оно хорошо вписывается в гистограмму Монте-Карло. Замечание: если бы время было дискретизировано в меньшие и меньшие ячейки, это распределение сходилось бы к экспоненциальному; но это не имеет большого значения для этого обсуждения.P r (t)=(1-p )Tп T
Как многие уже отметили здесь, это кривая снижения . Это означает, что вероятность того, что следующий самолет упадет на следующий день, 2 января, выше, чем вероятность того, что следующий самолет упадет в любой другой день, например, 2 января следующего года (разница почти в три раза: и 0,10 % ).0,27 % 0,10 %
тем не мение , если вы спросите, какова вероятность того, что следующий самолет потерпит крушение в следующие три дня, ответ будет , но если вы спросите, какова вероятность того, что он потерпит крушение через три дня, но в течение следующих трех лет, тогда ответ 94 % . Таким образом, очевидно, что более вероятно, что он потерпит крах в следующие три года (но после первых трех дней), чем в следующие три дня. Путаница возникает из-за того, что когда вы говорите «кластеризованные события», вы ссылаетесь на очень маленький начальный фрагмент дистрибутива, но когда вы говорите «широко разнесенные» события, вы ссылаетесь на большой его фрагмент.0,8 % 94 % Вот почему даже при монотонно уменьшающемся распределении вероятностей вполне возможно, что «скопления» (например, два падения самолета за три дня) маловероятны.
Вот еще одна гистограмма, чтобы действительно объяснить эту точку зрения. Это просто сумма предыдущей гистограммы за несколько непересекающихся периодов времени:
источник
Репортер говорит, что случайное столкновение самолета может быть смоделировано как процесс Пуассона - ситуация, когда вероятность события, произошедшего в течение некоторого (малого) интервала, пропорциональна длине указанного интервала и где каждое вхождение в Independent всех других.
Это разумная модель для описанного сценария?
Наверное.
Конечно, эти события не могут быть на 100% независимыми, поскольку другие пилоты, вероятно, изменяют свое поведение (хотя бы очень незначительно) после сбоя. [Я не знаю - возможно, несколько пилотов проводят дополнительную тренировку на тренажере или что-то в этом роде]. Тем не менее, предположение о независимости все еще вполне разумно.
Как насчет кластеров авиакатастроф?
Да. Учитывая процесс Пуассона (или даже какой-то другой случайный процесс), вы бы ожидать , чтобы увидеть некоторые кластеры вхождений.
Фактически, как описано в Оксфордском словаре статистики в его записи для Пуассоновского процесса (который является «математическим описанием случайности»):
Например, проверьте этот простой бит кода R :
который производит:
Даже если мы знаем , что это сюжет из случайных точек, он вроде выглядит как есть некоторые не являющиеся -Random бит к нему - в частности, в некоторых частях графика есть сгустки точек , тогда как другие части широко открыты. Это то же самое поведение, которое пытается описать статья (только с данными временного ряда, а не с пространственными данными).
ОБНОВИТЬ:
@JoelW .: Так, например, допустим, что вероятность падения самолета завтра (или в любой другой день) равна « p » (и, скажем, « p» » - это что-то вроде 1 на сотню).
Причина того, что следующая авиакатастрофа случится завтра, а не точно ровно через год (то есть 26 июля 2015 г. ), заключается в том, что вероятность того, что следующая авиакатастрофа произойдет ровно через год, равна:
Есть смысл?
В конце концов, я думаю , что причина , эти вещи нелогичные, потому что обычно , когда мы думаем , что фразы , как:
"The odds of a plane crash in one month compared with the odds of one happening tomorrow"
. Естественно, мы не сразу рассматриваем 24-часовой период, который начинается ровно через месяц. Вместо этого мы (или, по крайней мере, я) склонны думать об этом более, ну, гибко . Так что больше нравитсяa month ± a week
. Это и тот факт, что мы забываем об учете вероятности того, что авария не произойдет в промежуточный период ... (Но опять же, может быть, это только я ...).Уф!
Дополнительные ресурсы:
источник
Если число авиакатастроф распределено по Пуассону (как он, по-видимому, заявляет), то время между авариями имеет экспоненциальное распределение. PDF экспоненциального распределения является монотонно убывающей функцией времени. Следовательно, более ранние сбои более вероятны, чем более поздние.
источник
Другие ответы уже касались того, насколько независимы кластеризуются события. (Чтение Хаоса Глейка все эти годы назад открыло мне глаза на эту идею.)
Но на самом деле есть убедительные доказательства того, что авиакатастрофы не являются независимыми событиями. Влияние Сиалдини имеет очень хорошую главу по этому вопросу ( здесь также упоминается, что есть несколько ссылок на данные; я нашел отрывок из этой части книги ). Очевидно , что это является весьма спорным: он в основном говорит о том , что более огласку авиакатастрофа, тем больше вероятность того , чтобы воздействовать на пилота (сознательно или бессознательно) к аварийному его самолет. Но психологические объяснения, лежащие в основе гипотезы, кажутся правдоподобными, и данные, кажется, также подтверждают это.
(Ссылки на статистические исследования развенчания, приветствуются, в комментариях.)
источник