Можете ли вы объяснить оценку плотности окна (ядра) Parzen с точки зрения непрофессионала?

24

Оценка плотности окна Парцена описывается как

p(x)=1ni=1n1h2ϕ(xixh)

где - количество элементов в векторе, - вектор, - плотность вероятности , - размерность окна Парзена, а - оконная функция.x p ( x ) x h ϕnxp(x)xhϕ

Мои вопросы:

  1. В чем основное отличие оконной функции Парцена от других функций плотности, таких как гауссова функция и т. Д.?

  2. Какова роль оконной функции ( ) в определении плотности ?xϕx

  3. Почему мы можем подключить другие функции плотности вместо оконной функции?

  4. Какова роль в определении плотности ?хhx

user366312
источник

Ответы:

44

Оценка плотности окна Парцена - это другое название для оценки плотности ядра . Это непараметрический метод оценки непрерывной функции плотности по данным.

Представьте, что у вас есть несколько которые происходят из общего неизвестного, предположительно непрерывного, распределения . Вы заинтересованы в оценке распределения с учетом ваших данных. Одна вещь, которую вы могли бы сделать, это просто посмотреть на эмпирическое распределение и рассматривать его как примерный эквивалент истинного распределения. Однако, если ваши данные непрерывны, то, скорее всего, вы увидите каждыйx1,,xnfxiточки появляются только один раз в наборе данных, поэтому на основании этого вы бы пришли к выводу, что ваши данные поступают из равномерного распределения, поскольку каждое из значений имеет равную вероятность. Надеемся, что вы можете сделать лучше, чем это: вы можете упаковать ваши данные в некотором количестве равных интервалов и подсчитать значения, которые попадают в каждый интервал. Этот метод будет основан на оценке гистограммы . К сожалению, с гистограммой вы получите некоторое количество бинов, а не непрерывное распределение, так что это только приблизительное приближение.

Оценка плотности ядра является третьей альтернативой. Основная идея заключается в том, что вы приблизительные по смеси непрерывных распределений (используя обозначение ), называемые ядра , которые сосредоточены на точек данных и имеет масштаб ( пропускную способность ) , равную :fKϕxih

fh^(x)=1nhi=1nK(xxih)

Это показано на рисунке ниже, где в качестве ядра используется нормальное распределение, а для оценки распределения используются разные значения ширины полосы с учетом семи точек данных (отмеченных разноцветными линиями в верхней части графиков). Цветные плотности на графиках представляют собой ядра с центром в точках . Обратите внимание, что является относительным параметром, его значение всегда выбирается в зависимости от ваших данных, и одно и то же значение может не дать одинаковых результатов для разных наборов данных.Khxihчh

Четыре плотности ядра оценены по одним и тем же данным

Ядро можно рассматривать как функцию плотности вероятности, и оно должно интегрироваться в единицу. Он также должен быть симметричным, чтобы и, что следует, центрироваться в нуле. В статье Википедии о ядрах перечислены многие популярные ядра, такие как Gaussian (нормальное распределение), Epanechnikov, прямоугольные (равномерное распределение) и т. Д. В основном любой дистрибутив, отвечающий этим требованиям, может использоваться в качестве ядра.KK(x)=K(x)

Очевидно, что окончательная оценка будет зависеть от вашего выбора ядра (но не так сильно) и от параметра пропускной способности . Следующий поток Как интерпретировать значение пропускной способности в оценке плотности ядра? описывает использование параметров полосы пропускания более подробно.h

Говоря об этом на простом английском языке, вы предполагаете, что наблюдаемые точки являются просто образцом и следуют некоторому распределению для оценки. Поскольку распределение непрерывно, мы предполагаем, что существует некоторая неизвестная, но ненулевая плотность вокруг ближней окрестности точек (окрестность определяется параметром ), и мы используем ядра для ее учета. Чем больше точек находится в некоторой окрестности, тем больше плотности накапливается вокруг этой области и, следовательно, выше общая плотность . Результирующая функция теперь может быть оценена для любой точкиИксяеИксячасКечас^ечас^ x ^ f h ( x ) f (Икс(без индекса), чтобы получить оценку плотности для него, мы получили функцию которая является приближением неизвестной функции плотности .fh^(x)f(x)

Хорошая вещь о плотностях ядра состоит в том, что, в отличие от гистограмм, они являются непрерывными функциями и что они сами являются действительными плотностями вероятности, поскольку они представляют собой смесь действительных плотностей вероятности. Во многих случаях это как можно ближе к приближению .f

Разница между плотностью ядра и другими плотностями, как нормальное распределение, состоит в том, что «обычные» плотности являются математическими функциями, в то время как плотность ядра является приближением к истинной плотности, оцененной с использованием ваших данных, поэтому они не являются «автономными» распределениями.

Я бы порекомендовал вам две замечательные вводные книги по этому предмету от Silverman (1986) и Wand and Jones (1995).


Сильверман, BW (1986). Оценка плотности для статистики и анализа данных. CRC / Чепмен и Холл.

Wand, MP and Jones, MC (1995). Сглаживание ядра. Лондон: Чепмен и Холл / CRC.

Тим
источник
Что здесь ? x
user366312
@anonymous - ваши точки данных, - точка, в которой вы оцениваете функцию плотности. хxix
Тим
1
@anonymous Я добавил правку со ссылкой на ваш вопрос в комментарии в конце абзаца «Говоря на простом английском ...».
Тим
4

1) Насколько я понимаю, у пользователей есть выбор функций для , и что функция Гаусса является очень распространенным выбором.ϕ

2) Плотность в является средним значением различных значений в . Например, у вас может быть , и гауссово распределение с для . В этом случае плотность в будет .xϕh(xix)xx1=1x2=2σ=1ϕhxN1,1(x)+N2,1(x)2

3) Вы можете подключить любую функцию плотности, как вам нравится в качестве оконной функции.

4) определяет ширину выбранной вами оконной функции.h

Дэвид Дж. Харрис
источник