Различные непараметрические методы оценки вероятности распределения данных

10

У меня есть некоторые данные, и я пытался подогнать их под плавную кривую. Тем не менее, я не хочу навязывать ему слишком много предыдущих убеждений или слишком сильных предварительных представлений (кроме тех, которые подразумеваются в остальной части моего вопроса) или каких-либо конкретных распределений.

Я просто хотел подогнать его к некоторой плавной кривой (или иметь хорошую оценку распределения вероятностей, из которого он мог бы исходить). Единственный известный мне метод для этого - оценка плотности ядра (KDE). Мне было интересно, если бы люди знали о других методах оценки такой вещи. Я просто хотел получить их список, и из этого я могу провести собственное исследование, чтобы выяснить, какие из них я хочу использовать.

Всегда приветствуются (и приветствуются) любые ссылки или хорошие ссылки (или интуиции, на которых они хороши)!

Пиноккио
источник
3
« Я не хотел навязывать какие-либо предварительные убеждения », - тогда вы не можете предполагать, что оно гладкое или даже непрерывное (это были бы предварительные убеждения). В этом случае ecdf о вашем единственном доступе.
Glen_b
1
Чтобы быть сильным, я считаю, что это лучший способ сформулировать мой вопрос. Я имел в виду, что не хочу говорить, Бернулли или что-то, что может быть ограничительным. Я не знаю, что такое ecdf, кстати. Если у вас есть хорошее предложение или список предложений, не стесняйтесь опубликовать его.
Буратино
Я обновил свой вопрос. Это лучше? Яснее? Кстати, нет правильного ответа на мой вопрос, только хорошие и менее полезные. :)
Буратино
2
ecdf = эмпирический cdf , извините. Мы можем ответить только на тот вопрос, который вы задаете, а не на тот, который вы хотели задать, поэтому вы должны быть осторожны, чтобы быть ясными, когда высказываете свои предположения.
Glen_b
Нормализованная гистограммы можно рассматривать как оценку плотности
Dason

Ответы:

5

Вы не указываете, что говорите о непрерывных случайных переменных, но я предполагаю, что поскольку вы упоминаете KDE, вы намерены это сделать.

Два других метода подбора гладких плотностей:

1) лог-сплайновая оценка плотности. Здесь сплайн-кривая соответствует лог-плотности.

Пример бумаги:

Куперберг и Стоун (1991),
"Исследование оценки плотности лог-сплайна",
Компьютерная статистика и анализ данных , 12 , 327-347

Куперберг дает ссылку на PDF-документ своей статьи здесь , в разделе «1991».

Если вы используете R, есть пакет для этого. Пример подбора, сгенерированного этим, здесь . Ниже приведена гистограмма логов набора данных и репродукций оценок логсплайна и плотности ядра из ответа:

гистограмма лог-данных

Оценка плотности Logspline:

сюжетная линия

Оценка плотности ядра:

оценка плотности ядра

2) Модели конечных смесей . Здесь выбирается некоторое удобное семейство распределений (во многих случаях нормальное), и предполагается, что плотность представляет собой смесь нескольких различных членов этого семейства. Обратите внимание, что оценки плотности ядра можно рассматривать как такую ​​смесь (с ядром Гаусса они представляют собой смесь гауссианов).

В более общем случае они могут быть установлены с помощью ML, или EM-алгоритма, или в некоторых случаях с помощью согласования моментов, хотя в определенных обстоятельствах могут быть возможны другие подходы.

(Существует множество пакетов R, которые выполняют различные формы моделирования смесей.)

Добавлено в правку:

3) Усредненные сдвинутые гистограммы
(которые не являются буквально гладкими, но, возможно, достаточно гладкими для ваших неустановленных критериев):

бб/ККб/К

Икс

Усредненная сдвинутая гистограмма

Схема взята из этого ответа . Как я уже сказал, если вы пойдете на этот уровень усилий, вы также можете оценить плотность ядра.

Glen_b - Восстановить Монику
источник
Чтобы добавить к этому. Для модели смеси - Я думаю , вы могли бы поместить смесь 2, затем 3, затем 4 распределения и остановку после того, как не существует никакого существенного увеличения логарифмической вероятности или некоторые такие ...
waferthin
4

С учетом приведенных выше комментариев о допущениях, таких как гладкость и т. Д. Вы можете выполнить байесовскую непараметрическую оценку плотности, используя модели смесей с процессом Дирихле ранее.

На рисунке ниже показаны контуры плотности вероятности, полученные из оценки MCMC двумерной модели нормальной смеси DP для «старых достоверных» данных. Точки окрашены IIRC в соответствии с кластеризацией, полученной на последнем этапе MCMC.

введите описание изображения здесь

2010 год дает хороший фон.

гипотезы
источник
1

Популярным выбором являются случайные леса (см. Конкретно пятую главу « Леса решений: единая основа для классификации, регрессии, оценки плотности, коллективного обучения и обучения под наблюдением »).

Он подробно описывает алгоритм и сравнивает его с другими популярными вариантами, такими как k-means, GMM и KDE. Случайные леса реализованы в R и scikit-learn.

Случайный Лес - это умные деревья решений.

jpmuc
источник