Более важная статистика: «выжили 90% всех женщин» или «90% всех выживших были женщинами»?

14

Рассмотрим следующие утверждения в отношении Титаника:

Предположение 1: Только мужчины и женщины были на корабле

Предположение 2: было большое количество мужчин и женщин

Утверждение 1: 90 процентов всех женщин выжили

Утверждение 2: 90 процентов всех, кто выжил, были женщины

Первое указывает на то, что спасение женщин, вероятно, было приоритетом (независимо от того, было ли спасение мужчин)

Когда полезна вторая статистика?

Можно ли сказать, что один из них почти всегда полезнее другого?

Rahs
источник
40
полезнее для каких целей?
Аксакал почти наверняка бинарный
12
Удивлен, ни один из этих ответов не упомянул парадокс Симпсона
Немо
3
Я бы сказал, это зависит от того, женщина вы или нет!
Мех
6
Первое утверждение не имеет смысла без сопоставимой статистики для мужчин.
Бармар
1
@RahulSaha Но если выживет 95% мужчин, это может означать, что они отдают мужчинам еще больший приоритет. Вот почему сравнение необходимо.
Бармар

Ответы:

54

В их нынешнем виде ни одно из утверждений 1 или 2 не очень полезно. Если бы 90% пассажиров составляли женщины, а 90% людей выжили наугад, то оба утверждения были бы верными. Заявления должны рассматриваться в контексте общего состава пассажиров. И общий шанс на выживание.


Предположим, у нас было столько же мужчин, сколько женщин, по 100 на каждого. Вот несколько возможных матриц мужчин (M) против женщин (W) и выживших (S) против мертвых (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% женщин выжили. Как и 90% мужчин. Утверждение 1 верно, утверждение 2 ложно, поскольку половина выживших были женщинами. Это согласуется со многими выжившими, но нет различий между полами .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

Выжили 90% женщин, но только 10% мужчин. 90% выживших были женщины. Оба утверждения верны. Это согласуется с разницей между полами : женщины выжили чаще, чем мужчины.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

Выжили 9% женщин, но только 1% мужчин. 90% выживших были женщины. Утверждение 1 неверно, утверждение 2 верно. Это опять же согласуется с разницей между полами : женщины выжили чаще, чем мужчины.

Стефан Коласса
источник
3
(or indeed, if *everyone* survived)... Если все выжили, то выжили 100% всех женщин, независимо от пропорций.
Бриджбернерс
1
@Bridgeburners: вы совершенно правы, и это поразило меня, когда я был далеко от своего компьютера. Спасибо, я отредактировал свой ответ.
Стефан Коласса
18

На первый взгляд, условная вероятность выживания в зависимости от пола более полезна, просто из-за направления потока информации. Пол человека известен до его или его статуса выживания, и эта вероятность может быть использована в прогнозирующем смысле, в перспективе. Также на него не влияет распространенность самок. Если сомневаетесь, подумайте о прогнозе.

Фрэнк Харрелл
источник
Да, на его лице. Итак, просто чтобы убедиться, что я понимаю, как это относится к реальной статистике, о которой идет речь ... вы говорите, что утверждение № 1 полезно, потому что оно говорит мне, что, если я окажусь женщиной, на борту большого пассажирского лайнера в 1912 году, что случается, что тонет в водах, наполненных айсбергом, тогда вероятность моего выживания составляет 90%? И, добавив разумное предположение, что технологии и методы спасения жизни с тех пор улучшились, это означало бы, что вероятность того, что я выживу в такой ситуации сегодня, вероятно, даже лучше, чем 90%? Здорово! ;-)
Дон Хэтч
Эти комментарии продаются за пределы первоначальной описательной цели.
Фрэнк Харрелл
Вы уверены, что правильно поставили цель? Вопрос, по-видимому, заключается в полезности этих утверждений о реальном «Титанике», который на самом деле не так уж и полезен для предсказаний, потому что с тех пор многое изменилось. Так что, кажется, ваша эвристика провалилась на первом реальном примере, не так ли? Это не похоже на хорошее начало. С другой стороны, возможно, ФП хотел, чтобы вопрос о Титанике был доверенным лицом для общего вопроса той же формы, применяемой к текущим сценариям, которые действительно имеют прогностическую значимость; Я не знаю.
Дон Хэтч
1
Так же, как в моей книге « Стратегии регрессионного моделирования» подробно описан пример вероятностей выживания пассажиров «Титаник», очень важно узнать, что произошло. Я не использую предсказанные вероятности из этой логистической модели для предсказания будущих Титаников, а скорее для обнаружения закономерностей в процессе выбора спасательной шлюпки.
Фрэнк Харрелл
6

Первое указывает на то, что спасение женщин, вероятно, было приоритетом (независимо от того, было ли спасение мужчин)

Слово «приоритет» происходит от латинского слова «до». Приоритет - это что-то, что стоит перед чем-то другим (где «до» используется в смысле «более важно»). Если вы говорите, что спасение женщин было приоритетом, то спасение женщин должно быть превыше всего. И естественное предположение состоит в том, что прежде всего нужно спасать людей. Если вы говорите «независимо от того, был ли спасен человек», тогда нам остается задуматься, что же это было раньше.

То, что у женщин была высокая выживаемость, мало что говорит, если мы не знаем, какова была общая выживаемость. На последнем корабле, на котором я был, выжило более 90% женщин, но я бы не охарактеризовал это как показ, что спасение женщин было первоочередной задачей.

И зная, какой процент выживших составляли женщины, мало что можно сказать, не зная, какой процент людей в целом составляли женщины.

Какая статистика более полезна, зависит от ситуации. Если вы хотите знать, насколько опасно что-то, уровень смертности важнее. Если вы хотите знать, что влияет на то, насколько опасно что-то, тогда важно процентное распределение жертв.

Acccumulation
источник
2
Хорошая критика :-) «На последнем корабле, на котором я был, выжило более 90% женщин, но я бы не охарактеризовал это, как показ, что спасение женщин было приоритетом». Конечно, это ... высокий приоритет по сравнению с выбросом за борт! Конечно, это абсурдное толкование «высокого приоритета», но, поскольку ФП исключил толкование «более высокий приоритет, чем спасение людей», все, что нам осталось, - это абсурдные интерпретации.
Дон Хэтч
3

Возможно, нам полезно изучить, как связаны эти вероятности.

Пусть будет событием, когда человек является женщиной, и пусть S будет событием, когда человек выжил.WS

P(S|W)=0.9

P(W|S)=0.9

Теорема Байеса иллюстрирует, как эти утверждения вероятности связаны.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)

knrumsey
источник
3
Я бы также сказал, в противоположность вашему заключению, что если ни P (S), ни P (W) не известны, то и P (S | W), и P (W | S) страдают от одного и того же разочаровывающего недостатка полезности. У меня пока нет ясной картины того, что можно сказать, если точно известен один из P (S) и P (W).
Дон Хэтч
P(W)=0.5
1
Да, это выглядит правильно, и приговор, по-видимому, таков, что информация крайне неадекватна даже с учетом этого. Я должен сказать, что каждый раз, когда я начинаю думать о том, какую информацию я могу извлечь только из P (W | S) или просто P (S | W), даже добавляя P (W) или что-то еще, я в конечном итоге думаю: «Почему я Я думаю об этом? Почему они дали мне только эти проценты? Просто покажите мне всю таблицу ".
Дон Хэтч
3

Это зависит от того, что вы считаете полезным.

P(S|W)>P(S|M)

С другой стороны, если вам интересно, почему истории о выживших в основном происходят от женщин, тогда это объяснит утверждение 2, сделав утверждение 2 полезным даже в отсутствие другой информации.

Я не могу думать ни о чем, утверждение 1 полезно вне контекста. Это, конечно, ничего не говорит о приоритете, который дается спасению женщин, по сравнению с чем-либо еще. Единственное, что делает для меня утверждение 1, - это заставляет меня сказать «скажи мне больше».

Дон хэтч
источник
0

На первый взгляд (или в отрыве от реальности) оба утверждения кажутся одинаково бесполезными для государственной цели. Однако, учитывая контекст, второе утверждение явно более полезно.

Заявление 2

w

w=px/(px+(1p)z)
pxz

H0:x>z

H0

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
H0
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

p1/2

Заявление 1

x=0.9zx>z

xz

p1/2px+(1p)zxzp1/2

px+(1p)zx=0.9
x>>z

Вывод

Я бы сказал, что оба утверждения поддерживают вашу гипотезу о том, что женщины выжили с большей вероятностью, чем мужчины, но утверждение 1 делает это довольно слабо, в то время как утверждение 2 в сочетании с предположениями почти наверняка подтверждает вашу гипо как факт.

Аксакал почти наверняка бинарный
источник