У меня есть некоторые данные, и я пытался подогнать их под плавную кривую. Тем не менее, я не хочу навязывать ему слишком много предыдущих убеждений или слишком сильных предварительных представлений (кроме тех, которые подразумеваются в остальной части моего вопроса) или каких-либо конкретных распределений.
Я просто хотел подогнать его к некоторой плавной кривой (или иметь хорошую оценку распределения вероятностей, из которого он мог бы исходить). Единственный известный мне метод для этого - оценка плотности ядра (KDE). Мне было интересно, если бы люди знали о других методах оценки такой вещи. Я просто хотел получить их список, и из этого я могу провести собственное исследование, чтобы выяснить, какие из них я хочу использовать.
Всегда приветствуются (и приветствуются) любые ссылки или хорошие ссылки (или интуиции, на которых они хороши)!
источник
Ответы:
Вы не указываете, что говорите о непрерывных случайных переменных, но я предполагаю, что поскольку вы упоминаете KDE, вы намерены это сделать.
Два других метода подбора гладких плотностей:
1) лог-сплайновая оценка плотности. Здесь сплайн-кривая соответствует лог-плотности.
Пример бумаги:
Куперберг и Стоун (1991),
"Исследование оценки плотности лог-сплайна",
Компьютерная статистика и анализ данных , 12 , 327-347
Куперберг дает ссылку на PDF-документ своей статьи здесь , в разделе «1991».
Если вы используете R, есть пакет для этого. Пример подбора, сгенерированного этим, здесь . Ниже приведена гистограмма логов набора данных и репродукций оценок логсплайна и плотности ядра из ответа:
Оценка плотности Logspline:
Оценка плотности ядра:
2) Модели конечных смесей . Здесь выбирается некоторое удобное семейство распределений (во многих случаях нормальное), и предполагается, что плотность представляет собой смесь нескольких различных членов этого семейства. Обратите внимание, что оценки плотности ядра можно рассматривать как такую смесь (с ядром Гаусса они представляют собой смесь гауссианов).
В более общем случае они могут быть установлены с помощью ML, или EM-алгоритма, или в некоторых случаях с помощью согласования моментов, хотя в определенных обстоятельствах могут быть возможны другие подходы.
(Существует множество пакетов R, которые выполняют различные формы моделирования смесей.)
Добавлено в правку:
3) Усредненные сдвинутые гистограммы
(которые не являются буквально гладкими, но, возможно, достаточно гладкими для ваших неустановленных критериев):
Схема взята из этого ответа . Как я уже сказал, если вы пойдете на этот уровень усилий, вы также можете оценить плотность ядра.
источник
С учетом приведенных выше комментариев о допущениях, таких как гладкость и т. Д. Вы можете выполнить байесовскую непараметрическую оценку плотности, используя модели смесей с процессом Дирихле ранее.
На рисунке ниже показаны контуры плотности вероятности, полученные из оценки MCMC двумерной модели нормальной смеси DP для «старых достоверных» данных. Точки окрашены IIRC в соответствии с кластеризацией, полученной на последнем этапе MCMC.
2010 год дает хороший фон.
источник
Популярным выбором являются случайные леса (см. Конкретно пятую главу « Леса решений: единая основа для классификации, регрессии, оценки плотности, коллективного обучения и обучения под наблюдением »).
Он подробно описывает алгоритм и сравнивает его с другими популярными вариантами, такими как k-means, GMM и KDE. Случайные леса реализованы в R и scikit-learn.
Случайный Лес - это умные деревья решений.
источник