Насколько я понимаю (очень базовое), Наивный Байес оценивает вероятности, основываясь на частотах классов каждой функции в обучающих данных. Но как рассчитать частоту непрерывных переменных? И когда вы делаете прогноз, как он классифицирует новое наблюдение, которое может не иметь одинаковых значений любого наблюдения в обучающем наборе? Использует ли он какую-то меру расстояния или находит 1NN?
14
Ответы:
Есть много способов выполнить наивную байесовскую классификацию (NBC). Обычный метод в NBC - это перекодирование значений признаков (переменных) в квартили, так что значениям, меньшим 25-го процентиля, присваиваются 1, 25–50-й a 2, 50–75-м a 3 и больше 75-го процентиля a 4. Таким образом, один объект внесет один счет в ячейки Q1, Q2, Q3 или Q4. Расчеты просто делаются на этих категориальных бинах. Количество бинов (вероятностей) затем основывается на количестве выборок, чьи значения переменных попадают в данный бин. Например, если набор объектов имеет очень высокие значения для функции X1, то это приведет к большому количеству бинов в бине для Q4 из X1. С другой стороны, если другой набор объектов имеет низкие значения для признака X1, то эти объекты будут вносить большое количество отсчетов в ячейку для Q1 признака X1.
Это на самом деле не очень умный расчет, это скорее способ дискретизации непрерывных значений для дискретного и последующего использования. Индекс Джини и прирост информации можно легко рассчитать после дискретизации, чтобы определить, какие функции являются наиболее информативными, т. Е. Max (Джини).
Имейте в виду, однако, что есть много способов выполнить NBC, и многие из них сильно отличаются друг от друга. Так что вам просто нужно указать, какой из них вы реализовали в докладе или на бумаге.
источник
Сердцем Наивного Байеса является героическое условное предположение:
Существуют разные способы оценки параметров, но, как правило, можно:
источник