Я просто подумал о аккуратном (не обязательно хорошем) способе создания одномерных оценок плотности, и мой вопрос:
У этого метода оценки плотности есть имя? Если нет, то является ли это частным случаем какого-либо другого метода в литературе?
Вот метод: Мы имеем вектор который мы предполагаем, взят из некоторого неизвестного распределения, которое мы хотели бы оценить. Способ сделать это , чтобы принять все возможные пары значений X и для каждой пары [ х я , х J ] я ≠ J соответствуют нормальному распределению с использованием максимального правдоподобия. Результирующая оценка плотности представляет собой распределение смеси, которое состоит из всех результирующих нормалей, где каждому нормальному значению присваивается равный вес.
На рисунке ниже показано использование этого метода для вектора . Здесь кружки - точки данных, цветные нормали - распределения максимального правдоподобия, оцененные с использованием каждой возможной пары, а жирная черная линия показывает итоговую оценку плотности (то есть распределение смеси).
Кстати, действительно легко реализовать метод в R, который берет образец из полученного распределения смеси:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
источник
x <- c(rnorm(30), rnorm(30, 10))
Ответы:
Это интригующая идея, потому что оценка стандартного отклонения, по-видимому, менее чувствительна к выбросам, чем обычные среднеквадратичные подходы. Однако я сомневаюсь, что эта оценка была опубликована. Есть три причины, почему: это вычислительно неэффективно, оно смещено, и даже когда смещение исправлено, оно статистически неэффективно (но только немного). Это можно увидеть с небольшим предварительным анализом, поэтому давайте сначала сделаем это, а затем сделаем выводы.
Анализ
и
Поэтому метод, описанный в вопросе
которая является обычной оценкой среднего значения, и
Выводы
R
, (На других платформах требования к ОЗУ будут намного меньше, возможно, с небольшими затратами времени на вычисления).Это статистически неэффективно. Чтобы дать ему лучшее представление, давайте рассмотрим несмещенную версию и сравним ее с несмещенной версией либо метода наименьших квадратов, либо оценки максимального правдоподобия
R
позже
Код
источник