Насколько странно кластер авиационных происшествий?

15

Оригинальный вопрос (25.07.14): Имеет ли смысл эта цитата из новостных СМИ или есть лучший статистический способ просмотра потока недавних авиационных происшествий?

Однако Барнетт также обращает внимание на теорию распределения Пуассона, которая подразумевает, что короткие интервалы между авариями на самом деле более вероятны, чем длинные.

«Предположим, что в среднем происходит один несчастный случай со смертельным исходом в год, а это означает, что вероятность аварии в любой конкретный день - один из 365», - говорит Барнетт. «Если произошел сбой 1 августа, вероятность того, что следующий сбой произойдет через день 2 августа, составляет 1/365. Но вероятность следующего сбоя 3 августа составляет (364/365) x (1/365) потому что следующий сбой произойдет 3 августа, только если сбой не произошел 2 августа ".

«Это кажется нелогичным, но вывод неуклонно следует из законов вероятности», - говорит Барнетт.

Источник: http://www.bbc.com/news/magazine-28481060

Разъяснение (27/27/14): Что противоречит интуитивно (для меня), так это то, что редкие события имеют тенденцию происходить близко во времени. Интуитивно я думаю, что редкие события не произошли бы близко во времени. Может ли кто-нибудь указать мне на теоретическое или эмпирическое ожидаемое распределение времени между событиями в предположениях о распределении Пуассона? (То есть гистограмма, где ось Y - это частота или вероятность, а ось X - время между двумя последовательными событиями, сгруппированными по дням, неделям, месяцам или годам и т. П.) Спасибо.

Пояснение (28.07.14): заголовок подразумевает, что вероятность возникновения кластеров несчастных случаев выше, чем широко распространенных. Позволяет операционализировать это. Скажем, кластер - это 3 авиационных происшествия, и короткий период времени составляет 3 месяца, а длительный период - 3 года. Кажется нелогичным думать, что существует более высокая вероятность того, что 3 аварии произойдут в течение 3 месяцев, чем в течение 3 лет. Даже если мы воспринимаем первую аварию как данность, нелогично думать, что еще 2 аварии произойдут в течение следующих 3 месяцев по сравнению с последующими 3 годами. Если это правда, то заголовок средства массовой информации вводит в заблуждение и неверен. Я что-то пропустил?

Джоэл В.
источник
1
Пояснение: Вам может быть полезно различать вероятность , вероятность в единицу времени и ожидание . Хотя процессы, описывающие редкие события, будут - практически по самому значению «редкие» - иметь долгое ожидаемое время между событиями, это не противоречит вероятности того, что вероятность на единицу времени будет наибольшей в самом начале. Тем не менее, вероятность следующего события в течение короткого времени будет очень мала.
whuber
2
Кроме того, я только что заметил эту статью в Википедии - она вам может понравиться. О, и я только что наткнулся на этот PDF-файл - в нем конкретно упоминается «кластеризация» авиакатастроф (и описывает проблему гораздо лучше, чем я до сих пор ...).
Стив С.
1
@Glen_b: Недостаток газетной статьи (подразумевается в названии статьи, то есть в заголовке моей публикации) состоит в том, что статья предполагает, что существует более высокая вероятность того, что данное число (то есть кластер) несчастных случаев происходит в короткий период времени, чем в течение более длительного периода времени. Это просто неправильно.
Джоэл У.
1
@JoelW .: Во всяком случае, это будет журналист, который облажался ... В любом случае, все прояснилось или у вас остались какие-либо оговорки?
Стив С.
1
Я предполагаю, что именно статистик ввел в заблуждение журналиста. Я сомневаюсь, что журналист сам ошибся (потому что это так нелогично).
Джоэл В.

Ответы:

3

Резюме: первое предложение в цитируемом абзаце Би-би-си является неаккуратным и вводящим в заблуждение.

Несмотря на то, что предыдущие ответы и комментарии уже дали отличную дискуссию, я чувствую, что на главный вопрос не было получено удовлетворительного ответа.

Итак , давайте предположим , что вероятность авиакатастрофы в любой день является и что аварии не зависят друг от друга. Допустим также, что один самолет разбился 1 января. Когда произойдет следующая авиакатастрофа?пзнак равно1/365

Что ж, давайте проведем простую симуляцию: для каждого дня в течение следующих трех лет я буду случайным образом решать, разбился ли другой самолет с вероятностью и отмечать день следующего крушения; Я повторю эту процедуру 100п раз. Вот итоговая гистограмма:100000

Распределение плоских крошек, модель

На самом деле, распределение вероятностей просто определяется как , где t - количество дней. Я обозначил это теоретическое распределение красной линией, и вы можете видеть, что оно хорошо вписывается в гистограмму Монте-Карло. Замечание: если бы время было дискретизировано в меньшие и меньшие ячейки, это распределение сходилось бы к экспоненциальному; но это не имеет большого значения для этого обсуждения.пр(T)знак равно(1-п)TпT

Как многие уже отметили здесь, это кривая снижения . Это означает, что вероятность того, что следующий самолет упадет на следующий день, 2 января, выше, чем вероятность того, что следующий самолет упадет в любой другой день, например, 2 января следующего года (разница почти в три раза: и 0,10 % ).0,27%0,10%

тем не мение , если вы спросите, какова вероятность того, что следующий самолет потерпит крушение в следующие три дня, ответ будет , но если вы спросите, какова вероятность того, что он потерпит крушение через три дня, но в течение следующих трех лет, тогда ответ 94 % . Таким образом, очевидно, что более вероятно, что он потерпит крах в следующие три года (но после первых трех дней), чем в следующие три дня. Путаница возникает из-за того, что когда вы говорите «кластеризованные события», вы ссылаетесь на очень маленький начальный фрагмент дистрибутива, но когда вы говорите «широко разнесенные» события, вы ссылаетесь на большой его фрагмент.0.8%94% Вот почему даже при монотонно уменьшающемся распределении вероятностей вполне возможно, что «скопления» (например, два падения самолета за три дня) маловероятны.

Вот еще одна гистограмма, чтобы действительно объяснить эту точку зрения. Это просто сумма предыдущей гистограммы за несколько непересекающихся периодов времени:

Гистограмма плоских дроблений частоты

амеба говорит восстановить монику
источник
Вы говорите, что профессор MIT не прав?
Стив С.
1
Нет, цитата из Барнетта в статье BBC полностью правильна. Но его интерпретация корреспондентом BBC в лучшем случае небрежна: «Барнетт также обращает внимание на теорию распределения Пуассона, которая подразумевает, что короткие интервалы между авариями на самом деле более вероятны, чем длинные» . Наиболее естественное толкование этого предложения совершенно неверно (и я полагаю, Барнетт не хотел это подразумевать). Может быть, я должен быть более откровенным об этом в своем ответе. Есть ли существенная часть моего ответа, с которой вы не согласны? Надеюсь, что нет, так как я полностью согласен с вашим.
говорит амеба, восстанови Монику
13

Репортер говорит, что случайное столкновение самолета может быть смоделировано как процесс Пуассона - ситуация, когда вероятность события, произошедшего в течение некоторого (малого) интервала, пропорциональна длине указанного интервала и где каждое вхождение в Independent всех других.

Это разумная модель для описанного сценария?

Наверное.

Конечно, эти события не могут быть на 100% независимыми, поскольку другие пилоты, вероятно, изменяют свое поведение (хотя бы очень незначительно) после сбоя. [Я не знаю - возможно, несколько пилотов проводят дополнительную тренировку на тренажере или что-то в этом роде]. Тем не менее, предположение о независимости все еще вполне разумно.

Как насчет кластеров авиакатастроф?

Да. Учитывая процесс Пуассона (или даже какой-то другой случайный процесс), вы бы ожидать , чтобы увидеть некоторые кластеры вхождений.

Фактически, как описано в Оксфордском словаре статистики в его записи для Пуассоновского процесса (который является «математическим описанием случайности»):

[R]andomness usually gives rise to apparent clustering, despite the natural
expectation that randomness would lead to regularity.

Например, проверьте этот простой бит кода R :

set.seed(123)
x <- runif(500)
y <- runif(500)

plot(x, y, pch=20, col='blue', main="A Random Distribution of Points")

который производит:
Заметили комкование?

Даже если мы знаем , что это сюжет из случайных точек, он вроде выглядит как есть некоторые не являющиеся -Random бит к нему - в частности, в некоторых частях графика есть сгустки точек , тогда как другие части широко открыты. Это то же самое поведение, которое пытается описать статья (только с данными временного ряда, а не с пространственными данными).


ОБНОВИТЬ:

@JoelW .: Так, например, допустим, что вероятность падения самолета завтра (или в любой другой день) равна « p » (и, скажем, « » - это что-то вроде 1 на сотню).

Причина того, что следующая авиакатастрофа случится завтра, а не точно ровно через год (то есть 26 июля 2015 г. ), заключается в том, что вероятность того, что следующая авиакатастрофа произойдет ровно через год, равна:

= Prob(crash tomorrow) * Prob(365 days with *no* crashes)

Есть смысл?

В конце концов, я думаю , что причина , эти вещи нелогичные, потому что обычно , когда мы думаем , что фразы , как: "The odds of a plane crash in one month compared with the odds of one happening tomorrow". Естественно, мы не сразу рассматриваем 24-часовой период, который начинается ровно через месяц. Вместо этого мы (или, по крайней мере, я) склонны думать об этом более, ну, гибко . Так что больше нравится a month ± a week. Это и тот факт, что мы забываем об учете вероятности того, что авария не произойдет в промежуточный период ... (Но опять же, может быть, это только я ...).

Уф!


Дополнительные ресурсы:

  • Статья Википедии о кластерной иллюзии
  • PDF , который специфически упоминает «кластеризация» плоских аварий (на странице 8) и кратко описывает математику в процессе Пуассона .
Стив С
источник
1
@ Джоэл В .: На самом деле, я должен добавить больше к этому ответу - дай мне пару минут на редактирование ...
Стив С.
7
Аргумент за задержку поездки тот же, что и в старой шутке о том, как TSA обнаружил статистику с бомбой на борту самолета. Когда его попросили объяснить, статистик сказал: «Ну, вероятность того, что у человека есть бомба, мала, но не достаточно мала для удобства, но вероятность того, что у двух человек есть бомба, ничтожно мала. Поэтому, когда я беру бомбу, почти нет шансов, что будет две бомбы, и мы будем в полной безопасности ».
whuber
1
Твоя шутка на пороге, @whuber, но, кажется, есть некое логическое несоответствие между тем, чтобы сказать, что «короткие интервалы между сбоями на самом деле более вероятны, чем длинные», и тем, что вероятность завтрашнего сбоя не зависит от того, произошел ли сбой. произошло сегодня. Я думаю, что вероятность может быть нелогичным.
Джоэл В.
1
Противоречивым (для меня) является то, что редкие события обычно происходят близко во времени. Интуитивно я думаю, что редкие события не произошли бы близко во времени. Я единственный с таким интуитивным взглядом?
Джоэл У.
1
@ Steve S: Спасибо за ссылку. Как будет выглядеть экспоненциальное распределение для предполагаемого значения в новостной статье (1/365)? В любом случае, возможно, Экспоненциальное Распределение не обращается к заголовку статьи, что подразумевает сравнение вероятности того или иного события, произошедшего в течение короткого периода времени, с вероятностью того, что число событий произойдет в течение длительного периода времени. ,
Джоэл В.
4

Если число авиакатастроф распределено по Пуассону (как он, по-видимому, заявляет), то время между авариями имеет экспоненциальное распределение. PDF экспоненциального распределения является монотонно убывающей функцией времени. Следовательно, более ранние сбои более вероятны, чем более поздние.

Sid
источник
«короткие интервалы между авариями на самом деле более вероятны, чем длинные». Как это отличается от того, что если мы только что потерпели крушение самолета, мы все должны отложить наше предстоящее путешествие (по статистическим причинам)?
Джоэл В.
2
Джоэл, эта цитата не имеет смысла, пока ее автор не подсчитает, что подразумевается под «коротким» и «длинным». В его примере события с ожидаемой частотой один раз в год вероятность повторения в течение следующего месяца все равно будет намного меньше, чем вероятность того, что следующий сбой произойдет более чем через год. Что он мог иметь в виду, так это то, что вероятность в единицу времени больше в ближайшем будущем, чем в долгосрочном. Чтобы сравнить реальные вероятности, вы должны умножить вероятность за единицу времени на продолжительность (технически, вы должны интегрировать ее по продолжительности).
whuber
@whuber: заголовок говорит о вероятности авиационных происшествий. Ничто из сказанного об обмене стеками до сих пор не убедило меня в том, что кластер авиационных происшествий более распространен или вероятен, чем широко разнесенные авиационные происшествия. Таким образом, мне кажется, что цитата из новостных СМИ просто вводит в заблуждение (возможно, потому что временные интервалы не определены, как вы написали). Как вы думаете?
Джоэл У.
Я не знаю, что вы имеете в виду под "широко разнесенными авиационными происшествиями", и в этом отношении я совершенно не уверен, что вы понимаете под "скоплением". Предположим, чтобы конкретизировать ситуацию, серия редких событий происходит в годы 0, 10, 11, 12 и 22 (считая от некоторой начальной даты). Сколько именно "широко разнесенных" событий произошло? Сколько «скоплений» произошло? Я могу найти оправданные ответы на первый вопрос в диапазоне от нуля до десяти, а ответы на второй вопрос могут быть ноль или один.
whuber
1
@whuber: заголовок подразумевает, что вероятность возникновения кластеров более высока, чем широко распространенных. Позволяет операционализировать это. Скажем, кластер - это 3 авиационных происшествия, и короткий период времени составляет 3 месяца, а длительный период - 3 года. Кажется нелогичным думать, что существует более высокая вероятность того, что 3 аварии произойдут в течение 3 месяцев, чем в течение 3 лет. Даже если мы воспринимаем первую аварию как данность, нелогично думать, что еще 2 аварии произойдут в течение следующих 3 месяцев по сравнению с последующими 3 годами.
Джоэл У.
0

Другие ответы уже касались того, насколько независимы кластеризуются события. (Чтение Хаоса Глейка все эти годы назад открыло мне глаза на эту идею.)

Но на самом деле есть убедительные доказательства того, что авиакатастрофы не являются независимыми событиями. Влияние Сиалдини имеет очень хорошую главу по этому вопросу ( здесь также упоминается, что есть несколько ссылок на данные; я нашел отрывок из этой части книги ). Очевидно , что это является весьма спорным: он в основном говорит о том , что более огласку авиакатастрофа, тем больше вероятность того , чтобы воздействовать на пилота (сознательно или бессознательно) к аварийному его самолет. Но психологические объяснения, лежащие в основе гипотезы, кажутся правдоподобными, и данные, кажется, также подтверждают это.

(Ссылки на статистические исследования развенчания, приветствуются, в комментариях.)

Даррен Кук
источник
Это не говорит: говорит: «сразу же после некоторых широко освещаемых историй о самоубийствах число людей, погибших в авиакатастрофах, увеличивается».
Scortchi - Восстановить Монику
Ссылка на претензию, как мне кажется, Филлипс, (1978) «Число погибших в результате авиационных происшествий увеличивается сразу после газетных рассказов об убийствах и самоубийствах», Science , 201 , с. 748-750. Аннотация относится к "частным, деловым и корпоративно-исполнительным самолетам".
Scortchi - Восстановить Монику
Или, возможно, этот: Филлипс (1980), «Авиакатастрофы, убийства и средства массовой информации: к теории подражания и внушения», Социальные силы , 58 , 4, где «авиалинии» упоминаются в аннотации.
Scortchi - Восстановить Монику
2
Altheide (1981), Social Forces , 60 , 2 предполагает, что «определенный вид широко освещаемой истории самоубийства», возможно, не был определен полностью независимо от последующих «авиакатастроф» - звучит скорее как определение «знаменитого раввина» .
Scortchi - Восстановить Монику