Реализация Наивного Байеса

Я реализую Наивный алгоритм Байеса для категоризации текста с лапласовским сглаживанием. У меня проблема в том, что вероятность приближается к нулю, потому что я умножаю много маленьких дробей. Следовательно, вероятность в конечном итоге дает ноль. Это потому, что в документах и учебных наборах есть несколько слов.

Из-за этого я не могу классифицировать тексты. Есть ли способ, которым я могу обойти эту проблему? Я делаю что-то не так в своей реализации?

machine-learning natural-language-processing floating-point numerical-algorithms Сэм
источник

... Вы можете избежать арифметики с плавающей точкой.

msdn.microsoft.com/en-us/magazine/jj891056.aspx Вы найдете легкий ответ здесь.

Рошан Мехта

Ответы:

Обычный трюк, позволяющий избежать этого недостатка, - это вычисление с логарифмами, используя идентификатор То есть вместо использования вероятностей вы используете их логарифмы. Вместо того, чтобы умножать их, вы добавляете их.

\log \prod_{i = 1}^{n} p_{i} = \sum_{i = 1}^{n} \log p_{i} .

$\log \prod_{i=1}^n p_i = \sum_{i=1}^n \log p_i.$

Другой подход, который не так распространен, заключается в нормализации продукта вручную. Вместо того, чтобы хранить только одно число плавающей точкой , вы сохраняете число с плавающей точкой (скажем) и отрицательный показатель степени такой что . После каждой операции вы нормализуете полученный номер. $p$ $p_0 \in [1,2)$ $x$ $p = p_0 2^x$

Юваль Фильмус
источник

Также полезно отметить трюк logsumexp в этом контексте: en.wikipedia.org/wiki/LogSumExp

Побитовый