За занавеской стоит человек - я не знаю, женщина это или мужчина.
Я знаю, что у человека длинные волосы, и что 90% всех людей с длинными волосами - женщины
Я знаю, что у человека редкая группа крови AX3, и что 80% всех людей с этой группой крови - женщины.
Какова вероятность того, что человек женщина?
ПРИМЕЧАНИЕ: эта оригинальная формулировка была расширена двумя дополнительными допущениями: 1. Группа крови и длина волос независимы. 2. Соотношение мужчин и женщин в популяции в целом составляет 50:50.
(Конкретный сценарий здесь не так актуален - скорее, у меня есть срочный проект, который требует, чтобы я обдумал правильный подход к ответу на этот вопрос. У меня такое ощущение, что это вопрос простой вероятности, с простым окончательным ответом, скорее чем-то с несколькими дискуссионными ответами согласно различным статистическим теориям.)
источник
Ответы:
Многие люди считают полезным думать о «населении», подгруппах в нем и пропорциях (а не вероятностях). Это поддается визуальным рассуждениям.
Я объясню цифры в деталях, но намерение состоит в том, чтобы быстрое сравнение этих двух цифр немедленно и убедительно показало, как и почему конкретный ответ на вопрос не может быть дан. Немного более длительный экзамен подскажет, какая дополнительная информация будет полезна для определения ответа или, по крайней мере, для определения границ ответов.
легенда
Штриховка : женский / Сплошной фон : мужской.
Верх : длинноволосый / низ : короткошерстный.
Справа (цветной) : AX3 / Левый (неокрашенный) : не AX3.
Данные
Верхняя штриховка составляет 90% верхнего прямоугольника («90% всех людей с длинными волосами - женщины»).
Общая перекрестная штриховка в прямоугольнике правильного цвета составляет 80% от этого прямоугольника («80% всех людей с этим типом крови - женщины».)
объяснение
Эта диаграмма схематически показывает, как популяция (из всех рассматриваемых женщин и не женщин) может быть одновременно разделена на женщин / не женщин, AX3 / не AX3 и длинношерстных / недлинных («коротких»). Он использует площадь, по крайней мере приблизительно, для представления пропорций (есть некоторое преувеличение, чтобы сделать изображение более четким).
Очевидно, что эти три двоичные классификации создают восемь возможных групп. Каждая группа появляется здесь.
Представленная информация гласит, что верхний прямоугольник с перекрестными штрихами (длинношерстные женщины) составляет 90% верхнего прямоугольника (все длинноволосые люди). В нем также говорится, что объединенные перекрестно заштрихованные части цветных прямоугольников (длинношерстные женщины с AX3 и короткошерстные женщины с AX3) составляют 80% цветной области справа (все люди с AX3). Нам говорят, что кто-то лежит в правом верхнем углу (стрелка): длинноволосые люди с AX3. Какая пропорция этого прямоугольника заштрихована (женская)?
Я также (неявно) предположил, что группа крови и длина волос независимы : пропорция окрашенного верхнего прямоугольника (длинные волосы) (AX3) равна пропорции окрашенного нижнего прямоугольника (короткие волосы) (AX3). Вот что значит независимость. Это справедливое и естественное предположение при решении таких вопросов, как это, но, конечно, это необходимо сформулировать.
Положение верхнего заштрихованного прямоугольника (длинноволосых самок) неизвестно. Мы можем представить скольжение верхнего прямоугольника с перекрестными штрихами из стороны в сторону и скольжение нижнего прямоугольника с перекрестными штрихами из стороны в сторону и, возможно, изменение его ширины. Если мы сделаем это так, чтобы 80% цветного прямоугольника оставалось заштрихованным, такое изменение не изменит никакой заявленной информации, но может изменить долю женщин в верхнем правом прямоугольнике. Очевидно, что пропорция может быть где-то между 0% и 100% и все же соответствовать предоставленной информации, как на этом изображении:
Одной из сильных сторон этого метода является то, что он устанавливает наличие нескольких ответов на вопрос. Можно было бы перевести все это алгебраически и с помощью определения вероятностей предложить конкретные ситуации в качестве возможных примеров, но тогда возникнет вопрос, действительно ли такие примеры соответствуют данным. Например, если кто-то предположит, что, возможно, 50% длинношерстных людей - это AX3, то с самого начала не очевидно, что это возможно даже при всей доступной информации. Эти (веннские) диаграммы населения и его подгрупп проясняют такие вещи.
источник
Это вопрос условной вероятности. Вы знаете, что у человека длинные волосы и группа крови Ax3. Пусть A = { «У человека длинные волосы» } Таким образом, вы ищете P ( C | A и B ) . Вы знаете, что P ( C | A ) = 0,9 и P ( C | B ) = 0,8 . Этого достаточно, чтобы рассчитать P ( C | A и B ) ? Предположим, что P ( A и B и C ) = 0,7
Теперь оба варианта возможны, когда и P ( C | B ) = 0,8 . Так что мы не можем точно сказать, что такое P ( C | A и B ) .P(C|A)=0.9 P(C|B)=0.8 P(C|A and B)
источник
Увлекательная дискуссия! Мне интересно, если бы мы также указали P (A) и P (B), будут ли диапазоны P (C | A, B) не намного более узкими, чем полный интервал [0,1], просто из-за множества ограничений у нас есть.
Придерживаясь обозначений, введенных выше:
А = случай, когда у человека длинные волосы
B = случай, когда у человека есть группа крови AX3
C = событие, когда человек является женщиной
P (C | A) = 0,9
P (C | B) = 0,8
P (C) = 0,5 (т.е. давайте предположим, что в общей численности населения мужчины и женщины равны)
не представляется возможным предположить, что события A и B условно независимы, учитывая C! Это приводит непосредственно к противоречию: еслиP(A∧B|C)=P(A|C)⋅P(B|C)=P(C|A)P(A)P(C)⋅P(C|B)P(B)P(C)
тогда
Если мы теперь предположим, что A и B также независимы: большинство членов аннулируются, и мы получаемP(A∧B)=P(A)P(B)
Вслед за прекрасным геометрическим представлением проблемы, которое дает Уубер: хотя верно, что в общем случае может принимать любое значение в интервале [ 0 , 1 ], геометрические ограничения значительно сужают диапазон возможных значений для значения P ( A ) и P ( B ) , которые не являются «слишком маленькими». (Хотя мы также можем ограничить верхние границы: P ( A ) и P ( B ) )P(C|A∧B) [0,1] P(A) P(B) P(A) P(B)
Давайте вычислим {\ bf наименьшее возможное значение} для при следующих геометрических ограничениях:P(C|A∧B)
1. Доля верхней области (ИСТИНА), охватываемая верхним прямоугольником, должна быть равнаP(C|A)=0.9
2. Сумма площадей двух прямоугольников должна быть равнаP(C)=0.5
3. Сумма доли площадей двух цветных прямоугольников (т.е. их перекрытие с событием B) должна быть равнаP(C|B)=0.8
4. (тривиально) Верхний прямоугольник не может быть перемещен за левую границу и не должен перемещаться за пределы своего минимального перекрытия влево.
5. (тривиально) Нижний прямоугольник не может быть перемещен за правую границу и не должен перемещаться за пределы максимального перекрытия вправо.
Пробежка диапазона возможных значений для P (A) и P (B) ( R скрипт ) генерирует этот график
В заключение можно понизить оценку условной вероятности P (c | A, B) для заданного P (A), P (B).
источник
Make the hypotheses is that the person behind a curtain is a woman.
We area given 2 pieces of evidence, namely:
Evidence 1: We know the person has long hair (and we're told that 90% of all people with long hair are female)
Evidence 2: We know the person has a rare blood type AX3 (and we're told that 80% of all people with this blood type are female)
Given just Evidence 1, we can state that the person behind a curtain has a 0.9 probability value of being a woman (assuming 50:50 split between men and women).
Regarding the question posed earlier in the thread, namely "Would you agree that the answer must be GREATER than 0.9?", without doing any Math, I would say intuitively, the answer must be "yes" (it is GREATER than 0.9). The logic is that Evidence 2 is supporting evidence (again, assuming a 50:50 split for the number of men and women in the world). If we were told that 50% of all people with AX3 type blood were female, then Evidence 2 would be neutral and have no bearing. But since we're told that 80% of all people with this blood type are female, Evidence 2 is supporting evidence and logically should push the final probability of a woman above 0.9.
To calculate a specific probability, we can apply Bayes' rule for Evidence 1 and then use Bayesian updating to apply Evidence 2 to the new hypothesis.
Suppose:
A = the event that the person has long hair
B = the event that the person has blood type AX3
C = the event that person is female (assume 50%)
Applying Bayes rule to Evidence 1:
P(C|A) = (P(A|C) * P(C)) / P(A)
In this case, again if we assume 50:50 split between men and women:
P(A) = (0.5 * 0.9) + (0.5 * 0.1) = 0.5
So, P(C|A) = (0.9 * 0.5) / 0.5 = 0.9 (Not surprising, but it would be different if we didn't have 50:50 split between men and women)
Using Bayesian updating to apply Evidence 2 and plugging in 0.9 as the new prior probability, we have:
P(C|A AND B) = (P(B|C) * 0.9) / P(E)
Here, P(E) is the probability of Evidence 2, given the hypotheses that the person already has a 90% chance of being female.
P(E) = (0.9 * 0.8) + (0.1 * 0.2) [this is law of total probability: (P(woman)*P(AX3|woman) + P(man)*P(AX3|man)] So, P(E) = 0.74
So, P(C|A AND B) = (0.8 * 0.9) / 0.74 = 0.97297
источник
Question Restatement and Generalisation
and thatI contains no relevant information besides what is implicit in the assignments? The last conjunct of conditions 2 and 4 is shorthand for the independence statement
(BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1
Treat each of the four cases in turn.
Answers
Case 1
We have to specify the distribution(ABC|I) . The problem is underdetermined, because (ABC|I) requires eight numbers, but we have only three equations---the two given conditions and the normalisation condition.
It has been shown by various esoteric means that the distribution to assign when the information doesn't otherwise determine a solution is the one that, of all distributions consistent with the known information, has the greatest entropy. Any other distribution implies that we know more than the known information, which of course is a contradiction.
All we need to do, therefore, is assign the maximum entropy distribution. This is more easily said than done, and I have not found a general closed-form solution. But particular solutions can be found using a numerical optimiser. We maximise−∑i,j,k(AiBjCk|I)ln(AiBjCk|I)
subject to the constraints
∑i,j,k(AiBjCk|I)=1
and
(Aa1|Bb1I)=u1i.e.∑k(Aa1Bb1Ck|I)∑i,k(AiBb1Ck|I)=u1
and
(Aa2|Cc2I)=u2i.e.∑j(Aa2BjCc2|I)∑i,j(AiBjCc2|I)=u2
Now let's apply this to the question. If we have
thena=1 , b=1 , c=1 , a1=1 , b1=1 , a2=1 , c2=1 , u1=0.9 , u2=0.8 , and we find that for the maximum entropy solution, (A1|B1C1I)≃0.932 . Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.932.
Case 2
Now we repeat the exercise with the extra constraint that for a given person, knowing the value ofB (the hair state) does not affect our estimate of the value of C (the blood type state), and vice versa. Everything is the same as in Case 1, except there are two extra constraints in the optimisation, namely:
(B0|ClI)=(B0|I),l=0,1
i.e.
∑i(AiB0Cl|I)∑i,j(AiBjCl|I)=∑i,k(AiB0Ck|I),l=0,1
This gives (A1|B1C1I)≃0.936 , so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.936.
Case 3
Now we remove the independence condition and replace it with the prior condition that there is an equal chance that a given person is male or female:(A0|I)=12i.e.∑j,k(A0BjCk|I)=12
This time (A1|B1C1I)≃0.973 , so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.973.
Case 4
Finally we reintroduce the independence constraints of Case 2, and find that(A1|B1C1I)≃0.989 . Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.989.
источник
I believe now that, if we assume a ratio of men and women in the population at large, then there is a single indisputable answer.
A = the event that the person has long hair
B = the event that the person has blood type AX3
C = the event that person is female
P(C|A) = 0.9
P(C|B) = 0.8
P(C) = 0.5 (i.e. let's assume an equal ratio of men and women in the population at large)
Then P(C|A and B) = [P(C|A) x P(C|B) / P(C)] / [[P(C|A) x P(C|B) / P(C)] + [[1-P(C|A)] x [1-P(C|B)] / [1-P(C)]]]
in this case, P(C|A and B) = 0.972973
источник
Note: In order to get a definitive answer, the below answers assume that the probability of a person, a long-haired man, and a long-haired women having AX3 are approximately the same. If more accuracy is desired, this should be verified.
You start out with the knowledge that the person has long hair, so at this point the odds are:
Note:
The ratio of males to females in the general population does not matter to us once we find out the person has long hair. For example, if there were 1 female in a hundred in the general population, a randomly-selected long-haired person would still be a female 90% of the time.The ratio of females to males DOES matter! (see the update below for details)Next, we learn that the person has AX3. Because AX3 is unrelated to long hair, the ratio of men to women is known to be 50:50, and because of our assumption of the probabilities being the same, we can simply multiply each side of the probability and normalize so that the sum of the sides of the probability equals 100:
Thus, the chance that the person behind the curtain is female is approximately 97.297%.
UPDATE
Here's a further exploration of the problem:
Definitions:
First, we are given that 90% of long-haired people are females, and 80% of people with AX3 are female, so:
Because we assumed that the probability of AX3 is independent of gender and long hair, our calculated pfx will apply to women with long hair, and pmx will apply to men with long-hair to find the number of them that likely have AX3:
Thus, the likely ratio of the number of females with long-hair and AX3 to the number of males with long-hair and AX3 is:
Because it is given that there is an equal number of 50:50, you can cancel both sides and end with 36 females to every male. Otherwise, there are 36*m/f females for every male in the specified subgroup. For example, if there were twice as many women as men, there would be 72 females to each male of those that have long-hair and AX3.
источник
98% Female, simple interpolation. First premise 90% female, leaves 10%, second premise only leaves 2% of the existing 10%, hence 98% female
источник