Допустим, я пытаюсь выяснить вероятность того, что чей-то любимый аромат мороженого - ваниль.
Я знаю, что человек также любит фильмы ужасов.
Я хочу выяснить вероятность того, что любимое мороженое этого человека - ванильное, учитывая, что ему нравятся фильмы ужасов.
Я знаю следующие вещи:
- людей выбирают ваниль в качестве своего любимого вкуса мороженого. (Это мой П ( А ) )
- людей, фаворитом которых является ванильное мороженое, также любят фильмы ужасов. (Это мой P ( B | A ) )
- людей, чье любимое не ванильное мороженое, тоже любят фильмы ужасов (это мой P ( B | ¬ A ) )
Итак, я рассчитываю это так: Я считаю, чтоP(A|B)=0,3448(округлено до ближайшей десятитысячной). Естьвероятность34,48% того,что любимый вкус мороженого у фанатов фильмов ужасов - ваниль.
Но потом я узнаю, что человек видел фильм ужасов за последние 30 дней. Вот что я знаю:
- - обновленная апостериорная вероятность того, что ваниль - любимый вкус мороженого человека - P ( A ) в этой следующей проблеме.
Но подождите, есть другая вещь. Я также узнал, что человек владеет кошкой.
Вот что я знаю:
Мой вопрос в основном сводится к следующему: правильно ли я обновляю вероятность, используя теорему Байеса? Что-то не так в моих методах?
источник
Ответы:
Это не правильно. Последовательное обновление этого типа работает только тогда, когда информация, которую вы получаете последовательно, является независимой (например, при наблюдениях случайной величины). Если каждое наблюдение не является независимым, как в этом случае, вам необходимо рассмотреть совместное распределение вероятностей. Правильный способ обновления - вернуться к предыдущему, найти общую вероятность того, что кто-то любит фильмы ужасов, видел фильмы ужасов за последние 30 дней и владеет кошкой, учитывая, что он выбирает или не выбирает ваниль в качестве своего любимый вкус мороженого, а затем обновить за один шаг.
Такое последовательное обновление, когда ваши данные не являются независимыми, быстро увеличит вашу последнюю вероятность намного выше или ниже, чем должно быть.
источник