Оценка максимального правдоподобия совместного распределения с учетом только предельных показателей

12

Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : X , Y x , y { 1 , , K } n j = 1 , , Kpx,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

Какова максимальная оценка правдоподобия для , учитывая ? Это известно? Вычислительно выполнимо? Есть ли другие разумные подходы к этой проблеме, кроме ML? S j , T jpx,ySj,Tj

RS
источник
2
Поля на самом деле не содержат информации * о совместном распределении (на самом деле это точка связок). * или, по крайней мере, вряд ли - очевидно, поля содержат хотя бы некоторую информацию, поскольку внутренние показатели не могут превышать поля, в котором они встречаются. Имеете ли вы в виду конкретное совместное распределение? Почему вы использовали maximum-entropyтег? Вы после решения максимальной энтропии?
Glen_b
Я не очень знаком с связками. Они справедливы и для категориального случая? Что бы это значило - что каждое совместное распределение с одинаковыми наценками будет иметь одинаковую вероятность? (Я отметил максимальную энтропию, потому что думал, что это может быть актуально.)
RS
У нас даже нет определенной распределенной модели, поэтому мы не можем вычислить . Здесь есть множество возможностей. Копулы существуют для упорядоченного категориального случая (если не уникального), но моя цель в его поднятии состояла в том, чтобы дать мотивацию тому, почему маргиналы были не очень информативны в целом. Что касается случая с категориальным подсчетом, Фишер рассматривал поля как неинформативные для сустава, откуда точный тест Фишера-Ирвина. Если вам нужна максимальная энтропия, вы, вероятно, можете получить максимальное энтропийное решение, но я не знаю, будет ли оно очень информативным в отношении ...P(x|θ)
Glen_b -Восстановить Монику
(ctd) ... структура. В случаях ME или ML, я думаю, вам сначала понадобится какая-то модель, будь то двумерная многочленовая, двумерная гипергеометрическая или что-то более структурированное. Смотрите этот вопрос , где автор помещает ссылку в ответ. Это может помочь
Glen_b
1
Я имел в виду общее двумерное полиномиальное распределение. Вопрос говорит о случае, когда суммы распределения даны, и мы видим образцы из совместного распределения. Здесь у нас есть суммы образца. Я думаю, что проблема хорошо определена в случае ОД (решение может быть не уникальным, но я не знаю).
RS

Ответы:

4

Эта проблема была исследована в статье «Увеличение данных в многопоточных таблицах непредвиденных обстоятельств с фиксированными предельными значениями» (Dobra et al., 2006). Обозначим через параметры модели, через n обозначим таблицу ненаблюдаемых целых чисел для каждой пары ( x , y ) , и пусть C ( S , T ) будет множество целочисленных таблиц, предельные значения которых равны ( S , T ) , Тогда вероятность соблюдения предельных отсчетов ( S , T ) равна: p (θn(x,y)C(S,T)(S,T)(S,T) где p ( n | θ ) - многочленное распределение выборки. Это определяет функцию правдоподобия для ML, но прямая оценка невозможна, за исключением небольших проблем. Подход, который они рекомендуют, это MCMC, где вы поочередно обновляете n и θ.

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)nθпутем выборки из распределения предложений и принятия изменений в соответствии с коэффициентом приемки Metropolis-Hastings. Это может быть адаптировано для нахождения приблизительного максимума по с использованием метода Монте-Карло EM. θ

Другой подход будет использовать вариационные методы для аппроксимации суммы по . Предельные ограничения могут быть закодированы в виде факторного графа, а логический вывод по θ может быть выполнен с использованием распространения ожиданий.nθ

Чтобы понять, почему эта проблема сложна и не допускает тривиального решения, рассмотрим случай . Принимая S в качестве сумм строк и T в качестве сумм столбцов, существует две возможные таблицы подсчетов: [ 0 1 2 0 ]Sзнак равно(1,2),Tзнак равно(2,1)ST Поэтому функция правдоподобия р(S,Т | & thetas)=3 р 12 р 2 21 +6 р 11 р 21 р 22 Среда MLE этой проблемы является р х , у = [ 0 1 / 3 2 / 3 0 ]

[0120][1011]
п(S,T|θ)знак равно3п12п212+6п11п21п22
п^Икс,Yзнак равно[01/32/30]
что соответствует предположению о таблице слева. Напротив, оценка , что вы получите, если предположить независимость , которые имеет меньшее значение вероятности.
QИкс,Yзнак равно[1/32/3][2/31/3]знак равно[2/91/94/92/9]
Том Минка
источник
Разве невозможно получить аналитическое решение?
Бен Кун
θθзнак равно{θИкс,Y}(Икс,Y)
Я бы не стал подозревать, что существует аналитическое решение. Я добавил пример, чтобы проиллюстрировать это.
Том Минка
Благодарю. Возможно, это верно асимптотически? Тогда, кондиционирование итоговых значений маржи аналогично условию распределений маржи (после нормализации), и логарифмическая вероятность для каждой ненаблюдаемой целочисленной таблицы пропорциональна ее энтропии. Может быть, что-то с AEP тогда?
RS
1

Как было указано @Glen_b, это недостаточно указано. Я не думаю, что вы можете использовать максимальную вероятность, если вы не можете полностью определить вероятность.

Если вы готовы принять независимость, тогда проблема довольно проста (кстати, я думаю, что решение будет максимальным энтропийным решением, которое было предложено). Если вы не хотите и не можете навязать дополнительную структуру в своей задаче и все еще хотите какое-то приближение к значениям ячеек, возможно, вы могли бы использовать границы связок Фреше – Хеффдинга . Без дополнительных предположений, я не думаю, что вы можете пойти дальше.

Ф. Туселл
источник
Вероятность в этом может быть многочленной. Почему этого недостаточно?
RS
Насколько я понимаю, вероятность зависит от параметров, заданных данными. Здесь у вас нет значений для каждой ячейки, только маргиналы, поэтому у вас нет единственной функции параметров, которые вы можете вычислить, не говоря уже о максимизации. Как правило, существует множество конфигураций ячеек, совместимых с полями, и каждая из них дает различную вероятность.
Ф. Туселл
1
пп
1

пИкс,YпИксзнак равноΣYпИкс,YпYзнак равноΣИкспИкс,Y

Неправильные вещи следует:

пИкс,YИкс,YS1знак равноS2знак равноT1знак равноT2знак равно10

пзнак равно(120012),пзнак равно(14141414)

пИкспY


пзнак равно(aбсd)0<adпзнак равно(0б+aс+ad-a)


Икс,Y

ЧАС(п)знак равно-ΣИкс,YпИкс,YжурналпИкс,YΣИкспИкс,Yзнак равнопYΣYпИкс,Yзнак равнопИксграмм(п)знак равно0граммИкс(п)знак равноΣYпИкс,Y-пИксграммY(п)знак равноΣИкспИкс,Y-пY

ЧАС(п)знак равноΣКИксYλКграммК(п)

граммК

1-журналпИкс,Yзнак равноλИкс+λYпИкс,Yзнак равное1-λИкс-λY

ΣИкспИкс,Yзнак равнопYΣYпИкс,Yзнак равнопИксе1/2-λИксзнак равнопИксе1/2-λYзнак равнопY

пИкс,Yзнак равнопИкспY,
Бен Кун
источник
S1знак равноS2знак равноT1знак равноT2знак равно10п[[10,0],[0,10]]2-20пΣ0a10пр[[a,10-a],[10-a,a]]104-20
Вы неправильно рассчитали вероятности; Например, вы забыли включить биномиальные коэффициенты. Но вы правы в том, что две матрицы дают разные совместные распределения предельных количеств, даже если они дают одинаковое предельное распределение предельных значений. (Yikes!) Я подумаю об этом больше.
Бен Кун,