Сглаживание в наивной байесовской модели

Наивный байесовский предиктор делает свои прогнозы, используя эту формулу:

P (Y = y | X = x) = α P (Y = y) \prod_{i} P (X_{i} = x_{i} | Y = y)

$P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y)$

где - нормализующий фактор. Это требует оценки параметров по данным. Если мы сделаем это с помощью -smoothing, то получим оценку $\alpha$ $P(X_i=x_i|Y=y)$ $k$

\hat{п} ({Икс}_{я} знак равно {Икс}_{я} | Y знак равно Y) знак равно \frac{# {{Икс}_{я} знак равно {Икс}_{я}, Y знак равно Y} + К}{# {Y знак равно Y} + N_{я} К}

$\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik}$

где есть возможных значений для . Я в порядке с этим. Тем не менее, для предварительного мы имеем $n_i$ $X_i$

\hat{п} (Y знак равно Y) знак равно \frac{# {Y знак равно Y}}{N}

$\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N}$

где есть примеров в наборе данных. Почему бы нам не сгладить приор? Или , скорее, у нас гладкие до? Если так, какой параметр сглаживания мы выбираем? Кажется, немного глупо также выбирать , так как мы делаем другой расчет. Есть ли консенсус? Или это не имеет большого значения? $N$ $k$

machine-learning probability-theory statistics Крис Тейлор
источник

Типичная причина сглаживания в первую очередь заключается в обработке случаев, когда . Если бы это не было сделано, мы бы всегда получали когда бы это ни было. $\#\{X_i = x_i | Y = y\} = 0$ $P(Y=y|X=x) = 0$

Это происходит, когда, например, при классификации текстовых документов вы сталкиваетесь со словом, которого не было в ваших данных обучения или просто не появилось в каком-то определенном классе.

С другой стороны, в случае априорной вероятности класса такая ситуация не должна возникать. Если это произойдет, это будет означать, что вы пытаетесь назначить объекты классам, которые даже не отображаются в данных обучения. $P(Y = y)$

Кроме того, я никогда не встречал термин -smoothing. Сглаживание по Лапласу или Аддитиву встречается гораздо чаще. $k$

альт
источник

Причина сглаживания в целом заключается в том, чтобы избежать перегрузки данных. Случай, когда счет какого-то класса равен нулю, является просто частным случаем переобучения (что особенно плохо). Вы все еще можете сгладить вероятности, когда каждый класс наблюдается. Полагаю, меня беспокоит очевидная асимметрия - сглаживание Лапласа соответствует предположению о наличии дополнительных наблюдений в вашем наборе данных. Почему вы игнорируете эти наблюдения при подгонке предыдущего?

Крис Тейлор

P (Y = y)

$P(Y = y)$

P (X_{i} = x_{i} | Y = y)

$P(X_i = x_i | Y = y)$

«Такая ситуация не должна возникать. Если бы это произошло, это означало бы, что вы пытаетесь назначить объекты классам, которые даже не отображаются в данных обучения». Э-э-э ... как бы классификатор назначил объект классу, который он никогда раньше не видел (то есть, отсутствует в данных обучения)?

Jemenake

@Jemenake Проблему обычно называют обучением с нулевым броском, например, см. Обучение с

альт

когда мы обучаем модель с использованием набора обучающих данных, мы можем построить словарь, используя слова, встречающиеся в наборе обучающих данных, так почему бы просто не удалить новые слова, не входящие в словарь, когда делаются прогнозы на тестовом наборе?

авокадо

Сглаживание в наивной байесовской модели

Ответы: