Рассмотрим бета-распределение для данного набора рейтингов в [0,1]. После расчета среднего значения:
Есть ли способ обеспечить доверительный интервал вокруг этого среднего значения?
mean
beta-distribution
Dominic
источник
источник
Ответы:
Хотя существуют конкретные методы для расчета доверительных интервалов для параметров в бета-распределении, я опишу несколько общих методов, которые можно использовать для (почти) всех видов распределений , включая бета-распределение, и которые легко реализуются в R ,
Профиль вероятности доверительных интервалов
Начнем с оценки максимального правдоподобия с соответствующими доверительными интервалами правдоподобия профиля. Для начала нам нужны примеры данных:
Реальное / теоретическое среднее
Теперь нам нужно создать функцию для вычисления функции отрицательного логарифмического правдоподобия для выборки из бета-распределения со средним значением в качестве одного из параметров. Мы можем использовать
dbeta()
функцию, но поскольку в ней не используется параметризация, включающая среднее значение, мы должны выразить ее параметры ( α и β ) как функцию среднего значения и некоторый другой параметр (например, стандартное отклонение):Чтобы найти оценку максимального правдоподобия, мы можем использовать
mle()
функцию вstats4
библиотеке:Просто игнорируйте предупреждения на данный момент. Они вызваны тем, что алгоритмы оптимизации пытаются использовать недопустимые значения для параметров, давая отрицательные значения для α и / или β . (Чтобы избежать предупреждения, вы можете добавить
lower
аргумент и изменить используемую оптимизациюmethod
.)Теперь у нас есть и оценки, и доверительные интервалы для наших двух параметров:
Обратите внимание, что, как и ожидалось, доверительные интервалы не являются симметричными:
(Вторые внешние пурпурные линии показывают 95% доверительный интервал.)
Также обратите внимание, что даже при всего 10 наблюдениях мы получаем очень хорошие оценки (узкий доверительный интервал).
В качестве альтернативы
mle()
вы можете использоватьfitdistr()
функцию изMASS
пакета. Это также вычисляет оценку максимального правдоподобия и имеет то преимущество, что вам нужно только указать плотность, а не отрицательное логарифмическое правдоподобие, но не дает вам доверительные интервалы вероятности профиля, только асимптотические (симметричные) доверительные интервалы.Лучшим вариантом является
mle2()
(и связанные с ним функции) изbbmle
пакета, который является несколько более гибким и мощным, чемmle()
, и дает немного более приятные графики.Доверительные интервалы начальной загрузки
Другим вариантом является использование начальной загрузки. Его очень легко использовать в R, и вам даже не нужно предоставлять функцию плотности:
Дополнительным преимуществом начальной загрузки является то, что она работает, даже если ваши данные не поступают из бета-версии.
Асимптотические доверительные интервалы
Для доверительных интервалов в среднем давайте не будем забывать старые добрые асимптотические доверительные интервалы, основанные на центральной предельной теореме (и t -распределении). Пока у нас либо большой размер выборки (так что применяется CLT и распределение среднего значения выборки приблизительно нормальное), либо большие значения как α, так и β (так что само бета-распределение является приблизительно нормальным), это работает хорошо. Здесь у нас нет ни того, ни другого, но доверительный интервал все еще не так уж и плох:
Для незначительно больших значений n (и не слишком экстремальных значений двух параметров) асимптотический доверительный интервал работает исключительно хорошо.
источник
Проверьте Бета-регрессию. Хорошее введение в то, как сделать это с помощью R, можно найти здесь:
http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Другим (действительно простым) способом построения доверительного интервала было бы использование непараметрического подхода бустрапа. Википедия имеет хорошую информацию:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Также хорошее видео здесь:
http://www.youtube.com/watch?v=ZCXg64l9R_4
источник