Какова вероятность того, что этот человек является женщиной?

32

За занавеской стоит человек - я не знаю, женщина это или мужчина.

Я знаю, что у человека длинные волосы, и что 90% всех людей с длинными волосами - женщины

Я знаю, что у человека редкая группа крови AX3, и что 80% всех людей с этой группой крови - женщины.

Какова вероятность того, что человек женщина?

ПРИМЕЧАНИЕ: эта оригинальная формулировка была расширена двумя дополнительными допущениями: 1. Группа крови и длина волос независимы. 2. Соотношение мужчин и женщин в популяции в целом составляет 50:50.

(Конкретный сценарий здесь не так актуален - скорее, у меня есть срочный проект, который требует, чтобы я обдумал правильный подход к ответу на этот вопрос. У меня такое ощущение, что это вопрос простой вероятности, с простым окончательным ответом, скорее чем-то с несколькими дискуссионными ответами согласно различным статистическим теориям.)

ProbablyWrong
источник
1
Не существует множественных теорий вероятности, но общеизвестно, что людям трудно правильно думать о вероятностях. (Август Деморган, хороший математик, отказался от изучения вероятности из-за трудностей.) Не смотрите на дебаты: ищите апелляции к принципам вероятности (таким как аксиомы Колмогорова). Не позволяйте решить это демократическим путем: ваш вопрос вызывает много непродуманных ответов, которые, даже если некоторые из них согласны, просто коллективно неверны. @Michael C дает хорошее руководство; мой ответ пытается показать вам, почему он прав.
whuber
@ Whuber, если предполагается независимость, согласитесь ли вы, что 0.97297 является правильным ответом? (Я полагаю, что ответ может быть где-то между 0% и 100% без этого предположения - ваши диаграммы хорошо это показывают).
Вероятно,
Независимость от чего именно? Вы предполагаете, что женские и мужские прически одинаковы? Как вы говорите в своем вопросе, этот конкретный сценарий, включающий пол / волосы / группу крови, может быть неактуальным: это говорит о том, что вы стремитесь понять, как решать подобные проблемы в целом. Для этого вам нужно знать, какие предположения подразумевают какие выводы. Таким образом, вам нужно очень внимательно сосредоточиться на допущениях, которые вы готовы сделать, и точно определить, насколько они позволяют вам сделать выводы.
whuber
3
Вид независимости для исследования касается сочетания всех трех характеристик. Например, если AX3 является маркером синдрома, который включает в себя облысение у женщин (но не у мужчин), то любой длинноволосый человек с AX3 обязательно является мужчиной, что составляет вероятность того, что женщина будет 0%, а не 97,3%. Я надеюсь, что это делает очевидным, что любой, кто дает определенный ответ на этот вопрос, должен делать дополнительные предположения, даже если они явно не признают их. По-настоящему полезными ответами, IMHO, будут те, которые прямо показывают, как разные предположения приводят к разным результатам.
whuber
2
Вы упускаете вероятность того, что женщина не имеет длинных волос. Это критическая мера.
Даниэль Р Хикс

Ответы:

35

Многие люди считают полезным думать о «населении», подгруппах в нем и пропорциях (а не вероятностях). Это поддается визуальным рассуждениям.

Я объясню цифры в деталях, но намерение состоит в том, чтобы быстрое сравнение этих двух цифр немедленно и убедительно показало, как и почему конкретный ответ на вопрос не может быть дан. Немного более длительный экзамен подскажет, какая дополнительная информация будет полезна для определения ответа или, по крайней мере, для определения границ ответов.

Venn diagram

легенда

Штриховка : женский / Сплошной фон : мужской.

Верх : длинноволосый / низ : короткошерстный.

Справа (цветной) : AX3 / Левый (неокрашенный) : не AX3.

Данные

Верхняя штриховка составляет 90% верхнего прямоугольника («90% всех людей с длинными волосами - женщины»).

Общая перекрестная штриховка в прямоугольнике правильного цвета составляет 80% от этого прямоугольника («80% всех людей с этим типом крови - женщины».)

объяснение

Эта диаграмма схематически показывает, как популяция (из всех рассматриваемых женщин и не женщин) может быть одновременно разделена на женщин / не женщин, AX3 / не AX3 и длинношерстных / недлинных («коротких»). Он использует площадь, по крайней мере приблизительно, для представления пропорций (есть некоторое преувеличение, чтобы сделать изображение более четким).

Очевидно, что эти три двоичные классификации создают восемь возможных групп. Каждая группа появляется здесь.

Представленная информация гласит, что верхний прямоугольник с перекрестными штрихами (длинношерстные женщины) составляет 90% верхнего прямоугольника (все длинноволосые люди). В нем также говорится, что объединенные перекрестно заштрихованные части цветных прямоугольников (длинношерстные женщины с AX3 и короткошерстные женщины с AX3) составляют 80% цветной области справа (все люди с AX3). Нам говорят, что кто-то лежит в правом верхнем углу (стрелка): длинноволосые люди с AX3. Какая пропорция этого прямоугольника заштрихована (женская)?

Я также (неявно) предположил, что группа крови и длина волос независимы : пропорция окрашенного верхнего прямоугольника (длинные волосы) (AX3) равна пропорции окрашенного нижнего прямоугольника (короткие волосы) (AX3). Вот что значит независимость. Это справедливое и естественное предположение при решении таких вопросов, как это, но, конечно, это необходимо сформулировать.

Положение верхнего заштрихованного прямоугольника (длинноволосых самок) неизвестно. Мы можем представить скольжение верхнего прямоугольника с перекрестными штрихами из стороны в сторону и скольжение нижнего прямоугольника с перекрестными штрихами из стороны в сторону и, возможно, изменение его ширины. Если мы сделаем это так, чтобы 80% цветного прямоугольника оставалось заштрихованным, такое изменение не изменит никакой заявленной информации, но может изменить долю женщин в верхнем правом прямоугольнике. Очевидно, что пропорция может быть где-то между 0% и 100% и все же соответствовать предоставленной информации, как на этом изображении:

Figure 2


Одной из сильных сторон этого метода является то, что он устанавливает наличие нескольких ответов на вопрос. Можно было бы перевести все это алгебраически и с помощью определения вероятностей предложить конкретные ситуации в качестве возможных примеров, но тогда возникнет вопрос, действительно ли такие примеры соответствуют данным. Например, если кто-то предположит, что, возможно, 50% длинношерстных людей - это AX3, то с самого начала не очевидно, что это возможно даже при всей доступной информации. Эти (веннские) диаграммы населения и его подгрупп проясняют такие вещи.

Whuber
источник
3
Итак, если предположить, что группа крови и длина волос независимы, то наверняка доля длинноволосых женщин с типом AX3 должна быть такой же, как доля короткошерстных женщин с AX3? Т.е. у вас нет гибкости в смещении прямоугольников так, как вы предлагаете ... Если мы предположим, что мужчины и женщины составляют 50:50 во всем населении, разве это не дает нам достаточно информации, чтобы решить этот вопрос с помощью одного бесспорный ответ?
Вероятно,
@whuber +1 очень приятно.
Майкл Р. Черник
5
Возможно, неправильно, внимательно посмотрите на вопрос в своем комментарии: поскольку он касается женщин , он делает дополнительное предположение о независимости, обусловленное полом. Предположение о (безусловной) независимости волос и группы крови вообще не упоминает пол, поэтому, чтобы понять, что это значит, вычеркните перекрестную штриховку из рисунков. Это, я надеюсь, указывает на то, почему у нас есть гибкость, чтобы расположить штриховку там, где мы хотим, в верхнем и нижнем прямоугольниках.
whuber
1
@ whuber, мне это нравится. Тем не менее, у меня есть 2 вопроса / разъяснения: 1. цифры, по-видимому, предполагают пропорции популяции для длинных и коротких волос (около 6: 4) и ~ AX3 против AX3 (около 85:15), но это не упоминается в первоначальном вопросе и не обсуждается в ваших объяснениях цифр. Я подозреваю, что пропорции популярности не важны. Я прав / не могли бы вы уточнить это в объяснениях? 2. Я думаю, что эта ситуация, в конечном счете, работает с тем же феноменом, что и парадокс Симпсона , только по-другому сформулирован (как будто с другой стороны, с этой точки зрения). Это справедливая оценка?
gung - Восстановить Монику
3
@ Gung, спасибо за эти разъяснения. Цифры, конечно, должны представлять некоторые пропорции, чтобы работать вообще, но любые пропорции, которые не указаны в постановке задачи, могут варьироваться. (Я построил фигуру так, чтобы около 50% населения выглядели женщинами, ожидая более позднего редактирования, в котором это предполагалось.) Идея применения этого графического представления для понимания парадокса Симпсона интригует; Я думаю, что это имеет смысл.
whuber
13

Это вопрос условной вероятности. Вы знаете, что у человека длинные волосы и группа крови Ax3. Пусть A = { «У человека длинные волосы» } Таким образом, вы ищете P ( C | A и B ) . Вы знаете, что P ( C | A ) = 0,9 и P ( C | B ) = 0,8 . Этого достаточно, чтобы рассчитать P ( C | A и B ) ? Предположим, что P ( A и B и C ) = 0,7

     A={'The person has long hair'}              B={'The person has blood type Ax3'}C={'The person is female'}.

P(C|A and B)P(C|A)=0.9P(C|B)=0.8
P(C|A and B)P(A and B and C)=0.7, Тогда Предположим, что P ( A и B ) = 0,8 . Тогда, согласно вышеизложенному, P ( C | A и B ) = 0,875
P(C|A and B)=P(A and B and C)/P(A and B)=0.7/P(A and B).
P(A and B)=0.8P(C|A and B)=0.875, С другой стороны, если , то P ( C | A и B ) = 0,78.P(A and B)=0.9P(C|A and B)

Теперь оба варианта возможны, когда и P ( C | B ) = 0,8 . Так что мы не можем точно сказать, что такое P ( C | A и B ) .P(C|A)=0.9P(C|B)=0.8P(C|A and B)

Майкл Р. Черник
источник
Привет Майкл, если я правильно читаю тебя, ты говоришь, что на поставленный вопрос нельзя ответить, верно? Или, другими словами, вам нужно больше информации, чтобы ответить на этот вопрос? 1. Давайте предположим, что редкий тип крови в моем первоначальном вопросе никак не влияет на желание человека или его способность долго отращивать волосы. Теперь можно ответить на вопрос? 2. Согласитесь ли вы, что ответ должен быть БОЛЬШЕ, чем 0,9? (Потому что у вас есть вторая независимая информация - группа крови - которая подтверждает гипотезу о том, что человек - женщина)
Вероятно,
2
Если независимы, то P ( A  и  B ) = P ( A ) P ( B ), и вам нужно будет указать, какая часть людей имеет длинные волосы, то есть P ( A ) и какая доля людей имеют группу крови Ax3, т. е. P ( B ) . Также нельзя сказать, что ответ должен быть больше 0,9, что эквивалентно утверждению, что P ( C | A  и  B )P(A and B)P(A and B)=P(A)P(B)P(A)P(B) (я действительно не понимаю, почему). P(C|A and B)>0.9
Нестор
2
@ProbablyWrong. Да, проблема в том виде, в котором она была изначально сформулирована, не содержит информации для однозначного ответа
Майкл Р. Черник
@ Нестор, Михаэль, я не согласен с тем, что нам нужно знать, какая часть людей имеет длинные волосы или какая часть людей имеет группу крови AX3. Я думаю, что ответ на первоначальный вопрос решается однозначно, не зная их (если предположить, что А и В независимы, что у всех нас есть, и предположить, что мы знаем разделение мужчин и женщин по всему населению), не исключено, что это примерно 50:50. , Я думаю).
Вероятно,
7
Почему Я думал, что P ( C | A B ) = P ( C ( A B ) )
P(C|A and B)=P(A and B and C)×P(A and B)??
используя определение условной вероятности.
P(C|AB)=P(C(AB))P(AB)=P(ABC)P(AB)
Дилип Сарвейт
4

Увлекательная дискуссия! Мне интересно, если бы мы также указали P (A) и P (B), будут ли диапазоны P (C | A, B) не намного более узкими, чем полный интервал [0,1], просто из-за множества ограничений у нас есть.

Придерживаясь обозначений, введенных выше:

А = случай, когда у человека длинные волосы

B = случай, когда у человека есть группа крови AX3

C = событие, когда человек является женщиной

P (C | A) = 0,9

P (C | B) = 0,8

P (C) = 0,5 (т.е. давайте предположим, что в общей численности населения мужчины и женщины равны)

не представляется возможным предположить, что события A и B условно независимы, учитывая C! Это приводит непосредственно к противоречию: если P(AB|C)=P(A|C)P(B|C)=P(C|A)P(A)P(C)P(C|B)P(B)P(C)

тогда

P(C|AB)=P(AB|C)(P(C)P(AB))=P(C|A)P(A)P(C)P(C|B)P(B)P(C)(P(C)P(AB))

Если мы теперь предположим, что A и B также независимы: большинство членов аннулируются, и мы получаемP(AB)=P(A)P(B)

P(C|AB)=P(C|A)P(C|B)P(C)=0.90.80.5>1

Вслед за прекрасным геометрическим представлением проблемы, которое дает Уубер: хотя верно, что в общем случае может принимать любое значение в интервале [ 0 , 1 ], геометрические ограничения значительно сужают диапазон возможных значений для значения P ( A ) и P ( B ) , которые не являются «слишком маленькими». (Хотя мы также можем ограничить верхние границы: P ( A ) и P ( B ) )P(C|AB)[0,1]P(A)P(B)P(A)P(B)

Давайте вычислим {\ bf наименьшее возможное значение} для при следующих геометрических ограничениях:P(C|AB)

1. Доля верхней области (ИСТИНА), охватываемая верхним прямоугольником, должна быть равна P(C|A)=0.9

2. Сумма площадей двух прямоугольников должна быть равна P(C)=0.5

3. Сумма доли площадей двух цветных прямоугольников (т.е. их перекрытие с событием B) должна быть равна P(C|B)=0.8

4. (тривиально) Верхний прямоугольник не может быть перемещен за левую границу и не должен перемещаться за пределы своего минимального перекрытия влево.

5. (тривиально) Нижний прямоугольник не может быть перемещен за правую границу и не должен перемещаться за пределы максимального перекрытия вправо.

P(C|AB)enter image description here

Пробежка диапазона возможных значений для P (A) и P (B) ( R скрипт ) генерирует этот график enter image description here

В заключение можно понизить оценку условной вероятности P (c | A, B) для заданного P (A), P (B).

Маркус Лёчер
источник
2
Маркус, первый абзац принадлежит как отдельный вопрос, а не как ответ. Последующий материал выглядит как хорошее наблюдение, но трудно проследить, не сказав, чтоA,В, а также Спредставлять. Помните, что разные пользователи будут видеть ответы в разных последовательностях, в зависимости от своих предпочтений и времени последнего редактирования, поэтому каждый ответ должен быть доступен для чтения независимо от других (хотя, конечно, вы можете ссылаться на другие ответы).
whuber
1
@whuber: спасибо за полезный комментарий! Я надеюсь, что новые правки сделают его более читабельным и понятным.
Маркус Лохер
@whuber and others: I had hoped to reignite the discussion but the thread seems to have gone inactive ? No more comments by anyone ?
Markus Loecher
1

Make the hypotheses is that the person behind a curtain is a woman.

We area given 2 pieces of evidence, namely:

Evidence 1: We know the person has long hair (and we're told that 90% of all people with long hair are female)

Evidence 2: We know the person has a rare blood type AX3 (and we're told that 80% of all people with this blood type are female)

Given just Evidence 1, we can state that the person behind a curtain has a 0.9 probability value of being a woman (assuming 50:50 split between men and women).

Regarding the question posed earlier in the thread, namely "Would you agree that the answer must be GREATER than 0.9?", without doing any Math, I would say intuitively, the answer must be "yes" (it is GREATER than 0.9). The logic is that Evidence 2 is supporting evidence (again, assuming a 50:50 split for the number of men and women in the world). If we were told that 50% of all people with AX3 type blood were female, then Evidence 2 would be neutral and have no bearing. But since we're told that 80% of all people with this blood type are female, Evidence 2 is supporting evidence and logically should push the final probability of a woman above 0.9.

To calculate a specific probability, we can apply Bayes' rule for Evidence 1 and then use Bayesian updating to apply Evidence 2 to the new hypothesis.

Suppose:

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female (assume 50%)

Applying Bayes rule to Evidence 1:

P(C|A) = (P(A|C) * P(C)) / P(A)

In this case, again if we assume 50:50 split between men and women:

P(A) = (0.5 * 0.9) + (0.5 * 0.1) = 0.5

So, P(C|A) = (0.9 * 0.5) / 0.5 = 0.9 (Not surprising, but it would be different if we didn't have 50:50 split between men and women)

Using Bayesian updating to apply Evidence 2 and plugging in 0.9 as the new prior probability, we have:

P(C|A AND B) = (P(B|C) * 0.9) / P(E)

Here, P(E) is the probability of Evidence 2, given the hypotheses that the person already has a 90% chance of being female.

P(E) = (0.9 * 0.8) + (0.1 * 0.2) [this is law of total probability: (P(woman)*P(AX3|woman) + P(man)*P(AX3|man)] So, P(E) = 0.74

So, P(C|A AND B) = (0.8 * 0.9) / 0.74 = 0.97297

RandomAnswer
источник
1
There are a few statements in your answer that do not make sense to me. (1) P(C|A)=0.9 by assumption. Nowhere was it said that P(C)=0.9. We assumed P(C)=0.5. (2) How did you get the result for P(E)? P(woman)=P(man)=0.5 by assumption where you write P(woman)=0.9.
Michael R. Chernick
The value of P(C) is assumed at 0.5, which is what I've used. The value for P(E) is the probability of Evidence 2 after applying Evidence 1 (which leads to a new hypotheses that the probability that the person is female is 0.9). P(E) = (probability that the person is a woman (given Evience 1) * probability the the person has AX3 if a woman) + (probability that the person is a man (given Evience 1) * probability the the person has AX3 if a man) = (0.9 * 0.8) + (0.1 * 0.2) = 0.74
RandomAnswer
Your definition of probability of E is a bit confusing and the terms you are using to calculate it look different from what you wrote before. It really doesn't matter though. The answer is apparently correct based on Huu's nicely presented answer.
Michael R. Chernick
@Michael Except it appears Huu made mistakes.
whuber
2
This answer is simply wrong. There may be other errors, but this one is glaring. You state a definitive answer for P("Has Long Hair") (your P(A)), and then use that to give your final definitive answer. There simply isn't enough information to determine this, even assuming P(F) = 0.5. Your line to calculate P(A) seems to come from nowhere. Here is the correct formula using Bayes theroem: P(A) = P(A|F)P(F)/P(F|A) from which, using your stated assumptions, get to P(A) = P(A|F)*5/9. However we still don't know P(A|F), which could be anything.
Bogdanovist
0

Question Restatement and Generalisation

A, B, and C are binary unknowns whose possible values are 0 and 1. Let Zi stand for the proposition, "The value of Z is i". Also let (X|Y) stand for "The probability that X, given that Y". What is (Aa|BbCcI), given that

  1. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2
  2. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (BC|I)=(B|I)(C|I)
  3. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12
  4. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12 and (BC|I)=(B|I)(C|I)

and that I contains no relevant information besides what is implicit in the assignments? The last conjunct of conditions 2 and 4 is shorthand for the independence statement

(BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1
Treat each of the four cases in turn.

Answers

Case 1

We have to specify the distribution (ABC|I). The problem is underdetermined, because (ABC|I) requires eight numbers, but we have only three equations---the two given conditions and the normalisation condition.

It has been shown by various esoteric means that the distribution to assign when the information doesn't otherwise determine a solution is the one that, of all distributions consistent with the known information, has the greatest entropy. Any other distribution implies that we know more than the known information, which of course is a contradiction.

All we need to do, therefore, is assign the maximum entropy distribution. This is more easily said than done, and I have not found a general closed-form solution. But particular solutions can be found using a numerical optimiser. We maximise

i,j,k(AiBjCk|I)ln(AiBjCk|I)
subject to the constraints
i,j,k(AiBjCk|I)=1
and
(Aa1|Bb1I)=u1i.e.k(Aa1Bb1Ck|I)i,k(AiBb1Ck|I)=u1
and
(Aa2|Cc2I)=u2i.e.j(Aa2BjCc2|I)i,j(AiBjCc2|I)=u2
Now let's apply this to the question. If we have

  1. "The person is female" A1
  2. "The person has long hair" B1
  3. "The person has blood type AX3" C1

then a=1, b=1, c=1, a1=1, b1=1, a2=1, c2=1, u1=0.9, u2=0.8, and we find that for the maximum entropy solution, (A1|B1C1I)0.932. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.932.

Case 2

Now we repeat the exercise with the extra constraint that for a given person, knowing the value of B (the hair state) does not affect our estimate of the value of C (the blood type state), and vice versa. Everything is the same as in Case 1, except there are two extra constraints in the optimisation, namely:

(B0|ClI)=(B0|I),l=0,1
i.e.
i(AiB0Cl|I)i,j(AiBjCl|I)=i,k(AiB0Ck|I),l=0,1
This gives (A1|B1C1I)0.936, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.936.

Case 3

Now we remove the independence condition and replace it with the prior condition that there is an equal chance that a given person is male or female:

(A0|I)=12i.e.j,k(A0BjCk|I)=12
This time (A1|B1C1I)0.973, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.973.

Case 4

Finally we reintroduce the independence constraints of Case 2, and find that (A1|B1C1I)0.989. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.989.

CarbonFlambe Reinstate Monica
источник
-2

I believe now that, if we assume a ratio of men and women in the population at large, then there is a single indisputable answer.

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female

P(C|A) = 0.9

P(C|B) = 0.8

P(C) = 0.5 (i.e. let's assume an equal ratio of men and women in the population at large)

Then P(C|A and B) = [P(C|A) x P(C|B) / P(C)] / [[P(C|A) x P(C|B) / P(C)] + [[1-P(C|A)] x [1-P(C|B)] / [1-P(C)]]]

in this case, P(C|A and B) = 0.972973

ProbablyWrong
источник
P[C|A and B)= P(A and B and C)/P(A and B)=P(A and B and C)/ [P(A|B) P(B)]. How did you get your formula?
Michael R. Chernick
There is probably a way to add conditions so that you get a unique answer.
Michael R. Chernick
To add by independence of A and B the formula simplifies to P(A and B and C}/[P(A) P(B)]=P(B and C|A)/P(B).
Michael R. Chernick
2
The intent of my question was really for you to justify the formula. I don't understand how it would be derived.
Michael R. Chernick
2
No, the answer that supposedly used Bayes Rule is incorrect. I'm not sure why you are confused, MC's formula above is correct and cannot be used to get any result, that's what his and Whuber's answers to the question explained!
Bogdanovist
-2

Note: In order to get a definitive answer, the below answers assume that the probability of a person, a long-haired man, and a long-haired women having AX3 are approximately the same. If more accuracy is desired, this should be verified.

You start out with the knowledge that the person has long hair, so at this point the odds are:

90:10

Note: The ratio of males to females in the general population does not matter to us once we find out the person has long hair. For example, if there were 1 female in a hundred in the general population, a randomly-selected long-haired person would still be a female 90% of the time. The ratio of females to males DOES matter! (see the update below for details)

Next, we learn that the person has AX3. Because AX3 is unrelated to long hair, the ratio of men to women is known to be 50:50, and because of our assumption of the probabilities being the same, we can simply multiply each side of the probability and normalize so that the sum of the sides of the probability equals 100:

(90:10) * (80:20)
==> 7200:200

    Normalize by dividing each side by (7200+200)/100 = 74

==> 7200/74:200/74
==> 97.297.. : 2.702..

Thus, the chance that the person behind the curtain is female is approximately 97.297%.

UPDATE

Here's a further exploration of the problem:

Definitions:

f - number of females
m - number of males
fl - number of females with long hair
ml - number of males with long hair
fx - number of females with AX3
mx - number of males with AX3
flx - number of females with long hair and AX3
mlx - number of males with long hair and AX3
pfl - probability that a female has long hair
pml - probability that a male has long hair
pfx - probability that a female has AX3
pmx - probability that a male has AX3

First, we are given that 90% of long-haired people are females, and 80% of people with AX3 are female, so:

fl = 9 * ml
pfl = fl / f
pml = ml / m 
    = fl / (9 * m)

fx = 4 * mx
pfx = fx / f
pmx = mx / m 
    = fx / (4 * m)

Because we assumed that the probability of AX3 is independent of gender and long hair, our calculated pfx will apply to women with long hair, and pmx will apply to men with long-hair to find the number of them that likely have AX3:

flx = fl * pfx 
    = fl * (fx / f) 
    = (fl * fx) / f
mlx = ml * pmx 
    = (fl / 9) * (fx / (4 * m)) 
    = (fl * fx) / (36 * m)

Thus, the likely ratio of the number of females with long-hair and AX3 to the number of males with long-hair and AX3 is:

flx             :   mlx
(fl * fx) / f   :   (fl * fx) / (36 * m)
1/f             :   1 / (36m)
36m             :   f

Because it is given that there is an equal number of 50:50, you can cancel both sides and end with 36 females to every male. Otherwise, there are 36*m/f females for every male in the specified subgroup. For example, if there were twice as many women as men, there would be 72 females to each male of those that have long-hair and AX3.

Briguy37
источник
1
This solution relies on assuming more than is currently stated in the problem: namely, that long hair, AX3, and gender are independent. Otherwise, you cannot justify "applying" pfx to women with long hair, etc.
whuber
@whuber: Yes, I do make that assumption. However, isn't the purpose of probability to give the best approximation based on the data that you have? Thus, since you already know that long-hair and AX3 are independent for the general population, you SHOULD carry forward that assumption to males and females until you explicitly learn otherwise. Granted, it is not a universally correct one, but it is the best one you can make until you get more info. Q: With only the current data, if you had to give the % chance that it was a woman behind the curtain, would you really say "between 0 and 100%"?
Briguy37
1
We have an important difference in philosophy, @Briguy. I strongly believe in not making unfounded assumptions. It is not clear in what sense the mutual independence assumption is "best": I will grant it may be in certain applications. But in general, that seems dangerous to me. I would prefer being clear about the assumptions needed to solve a problem, so people can decide whether it is worthwhile collecting the data to check those assumptions, rather than assuming things that are mathematically convenient for the sake of obtaining an answer. That's the difference between stats and math.
whuber
To answer your question: yes, 0% - 100% is exactly the answer I would give. (I have given similar answers to comparable questions on this site.) That range accurately reflects the uncertainty. This issue is closely related to the Ellsberg paradox. Ellsberg's original paper is well written and clear: I recommend it.
whuber
@whuber: Thanks for taking the time to dialogue with me. I see your point about the importance of thinking through and listing the assumptions made, and have updated my answer accordingly. However, in regards to your answer, I believe it is incomplete. The reason for this is that you can consider all unknown cases and find the average probability of across all of them to arrive at your final answer. E.G. Though both are still possible, probabilities above 50% are much more prevalent than probabilities below 50% across all cases, so we are surely better off guessing that it is a woman.
Briguy37
-4

98% Female, simple interpolation. First premise 90% female, leaves 10%, second premise only leaves 2% of the existing 10%, hence 98% female

xcythe
источник