Коэффициент логарифмического правдоподобия при суммировании документов

9

Первоначально я спросил это о переполнении стека и был передан на этот сайт, так что здесь идет:

Я внедряю некоторые неконтролируемые методы обобщения документов на основе выбора контента / извлечения, и меня смущает то, что в моем учебнике называется «логарифмическое отношение правдоподобия». Книга « Обработка речи и языка» Jurafsky & Martin кратко описывает это так:

LLR для слова, обычно называемого лямбда (w), представляет собой соотношение между вероятностью наблюдения w как во входном, так и в фоновом корпусах, предполагающей равные вероятности в обеих корпусах, и вероятностью наблюдения w в обоих, предполагая разные вероятности для W во входном и фоновом корпусе.

Разбивая это, мы имеем числитель: «вероятность наблюдения w как на входном, так и на заднем корпусах при равных вероятностях в обоих корпусах». Как рассчитать, какую вероятность использовать здесь?

и знаменатель: «вероятность наблюдения w как в предположении различных вероятностей для w во входном, так и в фоновом корпусах». - это так же просто, как вероятность появления слова во входных данных, умноженная на вероятность появления слова в корпусе? например:

(количество (слово, ввод) / общее количество слов на входе) * (количество (слово, корпус) / общее количество слов в корпусе)

Я просматривал статью с ссылками на мои книги, « Точные методы для статистики неожиданностей и совпадений» (Dunning 1993), но мне трудно связать с проблемой вычисления значений LLR для отдельных слов в обобщении на основе извлечения. Любое разъяснение здесь будет очень полезно.

Ричард
источник
1
Можете ли вы рассказать нам, что это за учебник?
OneStop
Обработка речи и языка Юрафски и Мартина
Ричард

Ответы:

1

С моими ограниченными знаниями я думаю:

  1. «вероятность наблюдения w на входе» требует распределения для вычисления значения
  2. «вероятность наблюдения w как во входном, так и в фоновом корпусе, предполагающего равные вероятности в обоих корпусах» означает «вероятность наблюдения w… при условии, что вероятность для w одинакова в обоих корпусах».

Вот моя формулировка для этого:


Сформулируем проблему немного:

  1. Гипотеза 1: P (w на входе) = P (w на заднем плане) = p

Важнейшая часть заключается в том, что вам нужно принять распределение здесь. Упрощенно, мы предполагаем биномиальное распределение для генерации w в тексте. Учитывая данные выборки, мы можем использовать оценку максимального правдоподобия, чтобы вычислить значения для p, p1 и p2, и вот они:

  1. p = (количество входных данных + количество входных данных в фоновом режиме) / (размер входных данных + размер фоновых изображений) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Мы хотим знать, какая гипотеза более вероятна. Поэтому мы вычисляем вероятность каждой гипотезы и сравниваем друг с другом (что в основном и делает отношение правдоподобия).

Поскольку мы предполагаем биномиальное распределение , мы можем вычислить вероятность наличия c1 и c2.

Для гипотезы 1:

L (c1) = вероятность наблюдения w на входе = вероятность достижения c1, когда есть N1 слов, предполагающих вероятность p (или, другими словами, выбор w для c1 раз из N1 раз), равно b (N1, c1 , p) - см. формулу биномиальной вероятности здесь

L (c2) = вероятность наблюдения w в фоновом режиме = вероятность достижения c2 при наличии N2 слов, предполагающих, что вероятность p равна b (N2, c2, p)

Для Гипотезы 2 мы можем использовать вместо этого p1 и p2.

Теперь мы хотим знать, какая гипотеза более вероятна; нам нужно будет несколько, как сравнить выходное значение из каждой гипотезы.

Но каждая гипотеза имеет 2 значения, L (c1) и L (c2). Как мы можем сравнить, какая гипотеза более вероятна? --- Мы решили умножить их вместе, чтобы получить однозначный результат. (потому что это аналог геометрии, я думаю)

Танин
источник
в ваших вещах p, p1 и p2 являются оценками p, p1 и p2, верно?
Сиань
Да, это правильно. По статистике, они представляют собой оценки максимального правдоподобия с учетом данных выборки и биномиального распределения.
Танин
Спасибо, что указал на это, кстати. Я улучшил ответ.
Танин