Первоначально я спросил это о переполнении стека и был передан на этот сайт, так что здесь идет:
Я внедряю некоторые неконтролируемые методы обобщения документов на основе выбора контента / извлечения, и меня смущает то, что в моем учебнике называется «логарифмическое отношение правдоподобия». Книга « Обработка речи и языка» Jurafsky & Martin кратко описывает это так:
LLR для слова, обычно называемого лямбда (w), представляет собой соотношение между вероятностью наблюдения w как во входном, так и в фоновом корпусах, предполагающей равные вероятности в обеих корпусах, и вероятностью наблюдения w в обоих, предполагая разные вероятности для W во входном и фоновом корпусе.
Разбивая это, мы имеем числитель: «вероятность наблюдения w как на входном, так и на заднем корпусах при равных вероятностях в обоих корпусах». Как рассчитать, какую вероятность использовать здесь?
и знаменатель: «вероятность наблюдения w как в предположении различных вероятностей для w во входном, так и в фоновом корпусах». - это так же просто, как вероятность появления слова во входных данных, умноженная на вероятность появления слова в корпусе? например:
(количество (слово, ввод) / общее количество слов на входе) * (количество (слово, корпус) / общее количество слов в корпусе)
Я просматривал статью с ссылками на мои книги, « Точные методы для статистики неожиданностей и совпадений» (Dunning 1993), но мне трудно связать с проблемой вычисления значений LLR для отдельных слов в обобщении на основе извлечения. Любое разъяснение здесь будет очень полезно.
Ответы:
С моими ограниченными знаниями я думаю:
Вот моя формулировка для этого:
Сформулируем проблему немного:
Важнейшая часть заключается в том, что вам нужно принять распределение здесь. Упрощенно, мы предполагаем биномиальное распределение для генерации w в тексте. Учитывая данные выборки, мы можем использовать оценку максимального правдоподобия, чтобы вычислить значения для p, p1 и p2, и вот они:
Мы хотим знать, какая гипотеза более вероятна. Поэтому мы вычисляем вероятность каждой гипотезы и сравниваем друг с другом (что в основном и делает отношение правдоподобия).
Поскольку мы предполагаем биномиальное распределение , мы можем вычислить вероятность наличия c1 и c2.
Для гипотезы 1:
L (c1) = вероятность наблюдения w на входе = вероятность достижения c1, когда есть N1 слов, предполагающих вероятность p (или, другими словами, выбор w для c1 раз из N1 раз), равно b (N1, c1 , p) - см. формулу биномиальной вероятности здесь
L (c2) = вероятность наблюдения w в фоновом режиме = вероятность достижения c2 при наличии N2 слов, предполагающих, что вероятность p равна b (N2, c2, p)
Для Гипотезы 2 мы можем использовать вместо этого p1 и p2.
Теперь мы хотим знать, какая гипотеза более вероятна; нам нужно будет несколько, как сравнить выходное значение из каждой гипотезы.
Но каждая гипотеза имеет 2 значения, L (c1) и L (c2). Как мы можем сравнить, какая гипотеза более вероятна? --- Мы решили умножить их вместе, чтобы получить однозначный результат. (потому что это аналог геометрии, я думаю)
источник