Существует ли объективная оценка расстояния Хеллингера между двумя распределениями?

20

В ситуации, когда наблюдается распределение X1,,Xn распределенное по распределению с плотностью f , мне интересно, существует ли объективная оценка (на основе Xi ) расстояния Хеллингера до другого распределения с плотностью f0 , а именно

H(f,f0)={1Xf(x)f0(x)dx}1/2.
Сиань
источник
4
Итак, f0 известен и исправлен. Но известно ли f из параметрического семейства или делают это в непараметрических рамках со всем, что вы знаете о f из вашей выборки? Я думаю, что это имеет значение при попытке ответа.
Майкл Р. Черник
3
@MichaelChernick: предположим, что все, что вы знаете о это образец X 1 , , X n . fX1,,Xn
Сиань
2
Я не думаю, что он был рассчитан (если существует). Если существует, то у AIC есть потерянный брат.
4
Атака на эту проблему выглядит выполнимой, если вы предполагаете, что и f 0 дискретны. Это приводит к очевидной оценке (вычислить расстояние Хеллингера между EDF и f 0 ). Начальная загрузка (теоретически, а не с помощью симуляции!) Даст нам представление о возможном смещении, а также способ уменьшить (или даже устранить) смещение. Я даю некоторую надежду на успех с квадратным расстоянием, а не с самим расстоянием, потому что оно математически более податливое. Предположение о дискретном f не является проблемой в приложениях; в любом случае пространство дискретного f является плотным подмножеством. ff0f0ff
uuber
2
Это напоминает доказательство Розенблатта о том, что не существует «добросовестной» объективной оценки . Можем ли мы преодолеть это и получить непредвзятую оценку H ( f , f 0 ) ? Я не знаю. fH(f,f0)
Дзен

Ответы:

5

Никакой несмещенной оценки ни ни H 2 не существует для f из любого достаточно широкого непараметрического класса распределений.HH2f

Мы можем показать это с помощью красивого простого аргумента

Биккель и Леманн (1969). Несмещенная оценка в выпуклых семействах . Анналы математической статистики, 40 (5) 1523–1535. ( проект Евклид )

Зафиксируем некоторые распределения , F и G с соответствующими плотностями f 0 , f и g . Пусть H ( F ) обозначит Н ( п , ф 0 ) , и пусть Н ( Х ) быть некоторая оценка H ( F ) на основе п н.о.р. образцов X я ~ F .F0FGf0fgH(F)H(f,f0)H^(X)H(F)nXiF

Предположим , что Н является несмещенной для образцов из любого распределения вида M & alpha ; : = α F + ( 1 - α ) G . Но тогда Q ( α )H^

Mα:=αF+(1α)G.
так чтоQ(α)должна быть многочленом& alphaиз Степень не болееn.
Q(α)=H(Mα)=x1xnH^(X)dMα(x1)dMα(xn)=x1xnH^(X)[αdF(x1)+(1α)dG(x1)][αdF(xn)+(1α)dG(xn)]=αnEXFn[H^(X)]++(1α)nEXGn[H^(X)],
Q(α)αn

Теперь давайте перейдем к разумному случаю и покажем, что соответствующий не является многочленом.Q

Пусть - некоторое распределение, которое имеет постоянную плотность на [ - 1 , 1 ] : f 0 ( x ) = c для всех | х | 1 . (Его поведение вне этого диапазона не имеет значения.) Пусть F - некоторое распределение, поддерживаемое только на [ - 1 , 0 ] , а G - некоторое распределение, поддерживаемое только на [ 0 , 1 ] .F0[1,1]f0(x)=c|x|1F[1,0]G[0,1]

Теперь гдеBF:=R

Q(α)=H(mα,f0)=1Rmα(x)f0(x)dx=110cαf(x)dx01c(1α)g(x)dx=1αBF1αBG,
и аналогично дляBG. Отметим, чтоBF>0,BG>0для любых распределенийF,G,которые имеют плотность.BF:=Rf(x)f0(x)dxBGBF>0BG>0FG

1αBF1αBGH^HMα

1αBF1αBGH2Mα

Это исключает почти все разумные непараметрические классы распределений, за исключением тех, чьи плотности ограничены ниже (предположение, которое иногда делают непараметрические анализы). Вероятно, вы могли бы убить и эти классы с помощью аналогичного аргумента, просто сделав плотность постоянной или что-то в этом роде.

Дугал
источник
13

Я не знаю, как построить (если он существует) непредвзятую оценку расстояния Хеллингера. Кажется возможным построить последовательную оценку. У нас есть фиксированная известная плотностье0и случайная выборка X1,,Xn from a density f>0. We want to estimate

H(f,f0)=1Xf(x)f0(x)dx=1Xf0(x)f(x)f(x)dx
=1E[f0(X)f(X)],
where Xf. By the SLLN, we know that
11ni=1nf0(Xi)f(Xi)H(f,f0),
almost surely, as n. Hence, a resonable way to estimate H(f,f0) would be to take some density estimator fn^ (such as a traditional kernel density estimator) of f, and compute
H^=11ni=1nf0(Xi)fn^(Xi).
Zen
источник
3
@Zen: Good point! I consider this answer as the answer because it made me realise H sounds very much like a standard deviation, for which there exists no unbiased estimator. As for the variance of H^n2, no worries: E[(f0(X)/f(X))2]=1 implies that this estimator has a finite variance.
Xi'an
1
Thanks for the clarification about the variance of the estimator, Xi'an!
Zen
2
Some work on other consistent estimators: (a) arxiv.org/abs/1707.03083 and related work based on k-NN density estimators; (b) arxiv.org/abs/1402.2966 based on correcting kernel density estimates; (c) ieeexplore.ieee.org/document/5605355 based on a connection to classification. (Many of these are based on samples from both f and f0, because that's the work I knew about offhand, but I think there are variants for known f0.)
Dougal