Как сделать оценку, когда доступна только сводная статистика?

17

Это частично мотивировано следующим вопросом и обсуждением после него.

Предположим, что образец iid наблюдается, XiF(x,θ) . Цель состоит в том, чтобы оценить . Но оригинальный образец не доступен. Вместо этого мы имеем некоторую статистику выборки . Предположим, что фиксировано. Как мы оцениваем ? Какова будет оценка максимального правдоподобия в этом случае?θT1,...,Tkkθ

mpiktas
источник
1
Если для известной функции то вы можете записать распределение и оценка максимального правдоподобия получается обычным способом. Но вы не уточнили, что такое ? Ti=f(Xi)fTiTi
Стефан Лоран
3
Меня интересует случай, когда для известного . Это было то, что я имел в виду, когда говорил, что - примерная статистика. Ti=f(X1,...,Xn)fTi
mpiktas
Так в чем же разница между и ? TiTj
Стефан Лоран
2
Извините, это должно было быть , а не один . У нас есть несколько функций , которые принимают в качестве аргумента всю выборку. ф ф яfiffi
mpiktas
Разве это не то, для чего была разработана максимальная энтропия?
вероятностная

Ответы:

14

В этом случае вы можете рассмотреть ABC- аппроксимацию вероятности (и, следовательно, MLE ) при следующем предположении / ограничении:

Успенская. Исходный размер выборки известен.n

Это не дикое предположение, учитывая, что качество с точки зрения конвергенции оценщиков частоты часто зависит от размера выборки, поэтому невозможно получить сколь угодно хорошие оценки, не зная исходного размера выборки.

Идея состоит в том, чтобы сгенерировать выборку из апостериорного распределения и, чтобы получить аппроксимацию MLE , вы можете использовать метод выборки важности, как в [1], или рассмотреть униформу до θ с поддержкой подходящего установить как в [2] .θθ

Я собираюсь описать метод в [2]. Прежде всего, позвольте мне описать сэмплер ABC.

ABC Sampler

Пусть - модель, генерирующая выборку, где θ Θ - параметр (подлежащий оценке), T - статистика (функция выборки), а T 0 - наблюдаемая статистика в жаргоне ABC. это называется суммарной статистикой , ρ - метрика, π ( θ ) - предварительное распределение по θ, а ϵ > 0 - допуск. Затем ABC-отбраковочный пробоотборник может быть реализован следующим образом.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. Образец из π ( ) .θπ()
  2. Сгенерируйте образец размера n из модели f ( | θ ) .xnf(|θ)
  3. Вычислить .T=T(x)
  4. Если , примите θ как моделирование от апостериорного значения θ .ρ(T,T0)<ϵθθ

Этот алгоритм генерирует приблизительную выборку из апостериорного распределения при T ( x ) = T 0 . Следовательно, лучший сценарий - когда статистика T достаточна, но можно использовать другую статистику. Для более подробного описания этого см. Эту статью .θT(x)=T0T

Теперь, в общей структуре, если кто-то использует унифицированный априор, который содержит MLE в своей поддержке, то максимальный апостериорный (MAP) совпадает с оценщиком максимального правдоподобия (MLE). Поэтому, если вы рассмотрите подходящую униформу априора в ABC Sampler, то вы можете сгенерировать приблизительную выборку апостериорного распределения, MAP которого совпадает с MLE. Оставшийся шаг состоит в оценке этого режима. Эта проблема обсуждалась в CV, например, в «Вычислительно-эффективной оценке многомерного режима» .

Игрушечный пример

Пусть быть выборка из N ( М , 1 ) и предположим , что только информация , полученная от этого образца ˉ х = 1(x1,...,xn)N(μ,1). Пустьρ- евклидова метрика вRиϵ=0.001. Следующий код R показывает, как получить приблизительный MLE, используя методы, описанные выше, с использованием смоделированной выборки сn=100иμ=0, выборкой апостериорного распределения размера1000, унифицированного априора дляμна(-0,3,0,3)и оценщик плотности ядра для оценки режима задней выборки (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Как вы можете видеть, используя небольшой допуск, мы получаем очень хорошее приближение MLE (которое в этом тривиальном примере может быть вычислено из статистики при условии, что этого достаточно). Важно отметить, что выбор сводной статистики имеет решающее значение. Квантили обычно являются хорошим выбором для сводной статистики, но не все варианты дают хорошее приближение. Может случиться так, что сводная статистика не очень информативна, и тогда качество аппроксимации может быть плохим, что хорошо известно в сообществе ABC.

Обновление: аналогичный подход был недавно опубликован в Fan et al. (2012) . Смотрите эту запись для обсуждения на бумаге.

Сообщество
источник
2
(+1) Для того, чтобы указать правильный результат о связи между MLE и MAP и для предупреждения в последнем параграфе (среди других причин). Чтобы сделать это предупреждение более явным, этот (или любой!) Подход с треском провалится, если имеющиеся статистические данные являются вспомогательными или почти такими. Можно рассмотреть пример вашей игрушки и , например. T=i(XiX¯)2
кардинал
1
+1 @procrastinator Я собирался просто сказать: да, вы можете использовать достаточную статистику, если она доступна для вашей модели. Но ваши обширные ответы, кажется, покрыли это.
Майкл Р. Черник
Один простой вопрос, вы упомянули, что единый априор должен содержать MLE в своей поддержке Но MLE - это случайная переменная, которая ограничена только случайным образом, т. Е. Она может находиться вне любого ограниченного множества с положительной вероятностью.
mpiktas
1
@mpiktas Для конкретного образца вы должны выбрать подходящую поддержку униформы. Это может измениться, если вы измените образец. Важно отметить, что это не байесовская процедура, мы просто используем ее как численный метод, поэтому нет проблем с выбором предыдущего. Чем меньше поддержка предыдущего, тем лучше. Это увеличило бы скорость пробоотборника ABC, но когда ваша информация неопределенная в том смысле, что вы не имеете надежного представления о том, где находится MLE, вам может потребоваться более крупная поддержка (и она заплатит цену).
@mpiktas В примере с игрушкой вы можете использовать, например, униформу аоринга с поддержкой на или униформу априора с поддержкой на ( 0,1 , 0,15 ), получающую те же результаты, но с чрезвычайно разными показателями приемлемости. Выбор этой поддержки является специальным, и невозможно придумать предварительное назначение общего назначения, поскольку MLE, как вы упоминаете, не является стохастически ограниченным. Этот выбор можно рассматривать как рычаг метода, который необходимо корректировать в каждом конкретном случае. (1000000,1000000)(0.1,0.15)
5

Все зависит от того, известно или нет совместное распределение этих . Если это, например, ( T 1 , , T k ) g ( t 1 , , t k | θ , n ), то вы можете провести оценку максимального правдоподобия на основе этого совместного распределения. Обратите внимание, что, если ( T 1 , , T k ) не достаточно, это почти всегда будет отличаться от максимальной вероятности, чем при использовании необработанных данных (Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk) . Это будет обязательно менее эффективным, с большей асимптотической дисперсией.(X1,,Xn)

Если вышеупомянутое совместное распределение с плотностью не доступно, решение, предложенное Procrastinator, является вполне подходящим.g

Сиань
источник
1

Оценка (вероятности) максимального правдоподобия выглядит следующим образом:

F

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
,Tψ()ϕ() непрерывны дважды дифференцируемы.

То, как вы на самом деле максимизируете вероятность, зависит главным образом от возможности написать вероятность аналитически приемлемым образом. Если это возможно, вы сможете рассмотреть общие алгоритмы оптимизации (ньютон-Рафсон, симплекс ...). Если у вас нет отслеживаемой вероятности, вам может быть проще вычислить условное ожидание, как в алгоритме EM, который также даст максимальные оценки вероятности при довольно доступных гипотезах.

Лучший

Жюльен Стреннеманн
источник
Для задач, которые меня интересуют, аналитическая отслеживаемость невозможна.
mpiktas
Причина непривлекательности обусловливает схему оптимизации. Тем не менее, расширения EM обычно позволяют обойти большинство из этих причин. Я не думаю, что могу быть более конкретным в своих предложениях, не видя саму модель
julien stirnemann