Наивные байесовские характеристики вероятности: я должен дважды считать слова?

12

Я создаю прототип своей собственной модели Naive Bayes bag o 'words, и у меня возник вопрос о вычислении вероятностей характеристик.

Допустим, у меня есть два класса, я просто буду использовать спам, а не спам, поскольку это то, что все используют. И давайте возьмем слово «виагра» в качестве примера. В моем обучающем наборе 10 писем, 5 спамов и 5 не спамов. «Виагра» появляется во всех 5 спам-документах. В одном из учебных документов он появляется 3 раза (это мой вопрос), так что всего 7 появлений спама. В обучающем наборе, не содержащем спама, он появляется 1 раз.

Если я хочу оценить p (viagra | spam), это просто:

p (viagra | spam) = 5 спам-документов содержат виагру / всего 5 спам-документов = 1

Другими словами, имеет ли значение тот факт, что в одном документе упоминается виагра 3 раза, а не один раз?


Изменить: вот сообщение в блоге, где автор использует изложенный мной подход: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

И вот сообщение в блоге, где автор говорит: p (виагра | спам) = 7 упоминаний о спаме через виагру / 8 всего упоминаний http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-Байеса-классификаторы к документарно- классификационных-задач

И тогда один из ответов ниже говорит, что это должно быть: p (виагра | спам) = 7 упоминаний виагры в спаме / общее количество сроков в спаме

Может кто-нибудь дать ссылку на источник, который дает мнение по этому поводу?

user24885
источник

Ответы:

4

Другими словами, имеет ли значение тот факт, что в одном документе упоминается виагра 3 раза, а не один раз?

Это имеет значение. Наивная модель полиномиального Байеса учитывает каждое вхождение в знак, в то время как Наивная модель Бернулли Байеса нет (то есть для последней модели, 3 вхождения «виагры» таким же , как 1 появление «виагры»).

Вот две иллюстрации, а также таблица сравнения из {1}:

введите описание изображения здесь

введите описание изображения здесь

введите описание изображения здесь

{1} аккуратно представляет наивный байесовский для классификации текста, а также модель многокомного наивного байесовского и наивного байесовской модели Бернулли.


Ссылки:

  • {1} Кристофер Д. Мэннинг, Прабхакар Рагхаван и Генрих Шютце. « Введение в поиск информации ». 2009, глава 13 Текстовая классификация и Наивный байесовский .
Франк Дернонкур
источник
1

Это зависит от конкретной наивной модели, которую вы применяете. В общем, для классификации текста вы хотите рассмотреть повторение терминов, поэтому ответ - да.

Другое дело, что вы рассматриваете вероятность, основанную на пространстве событий документа. Вы также можете сделать это на основе термина пространство:

p (viagra | spam) = 5-кратный спам в классе спам / 50 терминов в классе

У вас много информации в этой [статье] ( http://echo.edres.org:8080/betsy/mccallum1.pdf )

miguelmalvarez
источник
0

Я думаю, что это зависит от того, что именно вы подразумеваете под p (viagra | spam) и как вы моделируете данные.

Как написано, я бы истолковал ваше значение как «вероятность того, что слово виагра упомянуто хотя бы один раз в сообщении, учитывая, что это сообщение является спамом». В таком случае, да, тот факт, что один документ упоминал виагру три раза, не имеет никакого эффекта. Вы определили модель, которая не обращает внимания на такие факты.

Конечно, вы могли бы иметь другую модель. Например, вместо того, чтобы виагру представлять двоичной переменной (присутствует / отсутствует), она может представлять количество раз, когда слово появляется в сообщении. В этом случае из ваших необработанных данных вы бы оценили эмпирическую частоту

p (виагра = 0 | спам) = 0

p (виагра = 1 | спам) = 4/5

p (виагра = 2 | спам) = 0

р (виагра = 3 | спам) = 1/5

и т.п.

Я не говорю, что это лучший способ сделать это. Я просто иллюстрирую альтернативную ситуацию, когда ваша интуиция о том, что трижды упоминается виагра, имеет отношение к делу.

Более практичным примером может быть «Term Frequency - Inverse Frequency», который представляет собой метод, который уделяет большое внимание частоте слова в документе.

похлопывание
источник