(Я новичок в статистике. Я математик и программист, и я пытаюсь создать что-то вроде наивного байесовского фильтра спама.)
Во многих местах я заметил, что люди склонны разбивать знаменатель в уравнении из теоремы Байеса. Итак, вместо этого:
Нам представлено это:
Вы можете видеть, что это соглашение используется в этой статье Википедии и в этом проницательном посте Тимом Питерсом.
Я сбит с толку этим. Почему знаменатель так разрушен? Как это вообще помогает? Что такого сложного в расчете , который в случае спам-фильтров был бы ?The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
Ответы:
Короткий ответ на ваш вопрос: «Большую часть времени мы не знаем, что такое P (сыр), и его часто (относительно) сложно вычислить».
Более длинный ответ, почему правило / теорема Байеса обычно формулируется так, как вы написали, заключается в том, что в байесовских задачах у нас - сидя на коленях - предварительное распределение (P (B) выше) и вероятность (P (A | B), P (A | notB) выше), и это относительно простой вопрос умножения для вычисления апостериорного значения (P (B | A)). Попытка повторно выразить P (A) в его обобщенной форме - это усилие, которое можно потратить в другом месте.
Это может показаться не таким сложным в контексте электронного письма, потому что, как вы правильно заметили, это просто P (сыр), верно? Беда в том, что при более сложных байесовских задачах на поле боя знаменатель является неприглядным интегралом, который может иметь или не иметь решение в замкнутой форме. На самом деле, иногда нам нужны сложные методы Монте-Карло только для аппроксимации интеграла, и смена чисел может быть настоящей болью в тылу.
Но, что более важно, нам, как правило, даже не важно, что такое P (сыр). Имейте в виду, что мы пытаемся отточить наше убеждение относительно того, является ли электронная почта спамом , и не заботятся о предельном распределении данных (P (A), выше). В любом случае, это просто нормализация, которая не зависит от параметра; Акт суммирования стирает любую информацию, которую мы имели о параметре. Константа - это неудобство для вычисления и, в конечном счете, не имеет значения, когда нужно сосредоточиться на наших представлениях о том, является ли спам в письме. Иногда мы обязаны рассчитать его, и в этом случае самый быстрый способ сделать это с помощью информации, которая у нас уже есть: априорная и вероятностная.
источник
Одна из причин использования правила полной вероятности состоит в том, что мы часто имеем дело с вероятностями компонентов в этом выражении, и найти предельную вероятность просто, просто вставив значения. Для иллюстрации этого см. Следующий пример в Википедии:
Другой причиной является признание эквивалентных форм правила Байеса путем манипулирования этим выражением. Например:
Разделите через RHS на числитель:
Это хорошая эквивалентная форма для правила Байеса, которая стала еще удобнее, вычтя ее из исходного выражения, чтобы получить:
Это правило Байеса, сформулированное в терминах коэффициентов, то есть последующие коэффициенты против B = коэффициент Байеса против B, умноженные на предыдущие коэффициенты против B. (Или вы можете инвертировать его, чтобы получить выражение в терминах коэффициентов для B.) Соотношение вероятностей ваших моделей. Учитывая, что мы не уверены в базовом механизме генерации данных, мы наблюдаем за данными и обновляем наши убеждения.
Я не уверен, что вы найдете это полезным, но, надеюсь, это не сбивает с толку; очевидно, вы должны работать с выражением, которое лучше всего подходит для вашего сценария. Может быть, кто-то еще может подслушивать с еще лучшими причинами.
источник
Предыдущие ответы достаточно подробны, но интуитивно понятный способ понять, почемуP(A)
источник