Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то все произведение становится равным нулю, независимо от того, сколько других значений я получил, возможно, найдет другое решение.
Пример:
Весь продукт становится равным потому что в данных обучения значение атрибута TimeZone US всегда равно Да в нашем небольшом наборе данных обучения. Как я могу справиться с этим? Должен ли я использовать больший набор обучающих данных или есть другая возможность преодолеть эту проблему?
Ответы:
Подход к преодолению этой «проблемы нулевой частоты» в байесовском параметре состоит в добавлении единицы к счетчику для каждой комбинации значения атрибута-класса, когда значение атрибута не встречается с каждым значением класса. Так, например, скажем, ваши тренировочные данные выглядели так:
Затем вы должны добавить один к каждому значению в этой таблице, когда вы используете его для вычисления вероятностей:
источник