Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : X , Y x , y ∈ { 1 , … , K } n j = 1 , … , K
Какова максимальная оценка правдоподобия для , учитывая ? Это известно? Вычислительно выполнимо? Есть ли другие разумные подходы к этой проблеме, кроме ML? S j , T j
maximum-entropy
тег? Вы после решения максимальной энтропии?Ответы:
Эта проблема была исследована в статье «Увеличение данных в многопоточных таблицах непредвиденных обстоятельств с фиксированными предельными значениями» (Dobra et al., 2006). Обозначим через параметры модели, через n обозначим таблицу ненаблюдаемых целых чисел для каждой пары ( x , y ) , и пусть C ( S , T ) будет множество целочисленных таблиц, предельные значения которых равны ( S , T ) , Тогда вероятность соблюдения предельных отсчетов ( S , T ) равна: p (θ N ( х , у) С( S, Т) ( S, Т) ( S, Т)
где p ( n | θ ) - многочленное распределение выборки. Это определяет функцию правдоподобия для ML, но прямая оценка невозможна, за исключением небольших проблем. Подход, который они рекомендуют, это MCMC, где вы поочередно обновляете n и θ.
Другой подход будет использовать вариационные методы для аппроксимации суммы по . Предельные ограничения могут быть закодированы в виде факторного графа, а логический вывод по θ может быть выполнен с использованием распространения ожиданий.N θ
Чтобы понять, почему эта проблема сложна и не допускает тривиального решения, рассмотрим случай . Принимая S в качестве сумм строк и T в качестве сумм столбцов, существует две возможные таблицы подсчетов: [ 0 1 2 0 ]S= ( 1 , 2 ) , Т= ( 2 , 1 ) S T
Поэтому функция правдоподобия
р(S,Т | & thetas)=3 р 12 р 2 21 +6 р 11 р 21 р 22
Среда MLE этой проблемы является
р х , у = [ 0 1 / 3 2 / 3 0 ]
источник
Как было указано @Glen_b, это недостаточно указано. Я не думаю, что вы можете использовать максимальную вероятность, если вы не можете полностью определить вероятность.
Если вы готовы принять независимость, тогда проблема довольно проста (кстати, я думаю, что решение будет максимальным энтропийным решением, которое было предложено). Если вы не хотите и не можете навязать дополнительную структуру в своей задаче и все еще хотите какое-то приближение к значениям ячеек, возможно, вы могли бы использовать границы связок Фреше – Хеффдинга . Без дополнительных предположений, я не думаю, что вы можете пойти дальше.
источник
Неправильные вещи следует:
источник