Как обработать нулевой фактор в расчете наивного байесовского классификатора?

Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то все произведение становится равным нулю, независимо от того, сколько других значений я получил, возможно, найдет другое решение.

Пример:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

Весь продукт становится равным потому что в данных обучения значение атрибута TimeZone US всегда равно Да в нашем небольшом наборе данных обучения. Как я могу справиться с этим? Должен ли я использовать больший набор обучающих данных или есть другая возможность преодолеть эту проблему? $0$

classification naive-bayes-classifier fragant
источник

Если вы получаете значение отдельного атрибута, его вероятность, по определению, не может быть равна нулю.

Пол

почему мы добавляем проблему с частотой 1 в 0, что за этим стоит логика, почему бы нам не добавить еще одно число?

Афтаб Хусайин

Ответы:

Подход к преодолению этой «проблемы нулевой частоты» в байесовском параметре состоит в добавлении единицы к счетчику для каждой комбинации значения атрибута-класса, когда значение атрибута не встречается с каждым значением класса. Так, например, скажем, ваши тренировочные данные выглядели так:

\begin{array}{ccc} Спам знак равно Y е s & Спам знак равно N о \\ Часовой пояс знак равно U S & 10 & 5 \\ Часовой пояс знак равно Е U & 0 & 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Затем вы должны добавить один к каждому значению в этой таблице, когда вы используете его для вычисления вероятностей:

\begin{array}{ccc} Спам знак равно Y е s & Спам знак равно N о \\ Часовой пояс знак равно U S & 11 & 6 \\ Часовой пояс знак равно Е U & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

timleathart
источник

В самом деле. Обратите внимание, что иногда вы можете добавлять значения, отличные от одного. Для получения дополнительной информации см en.wikipedia.org/wiki/Additive_smoothing

Dal