Фон
У меня есть переменная с неизвестным распределением.
У меня есть 500 выборок, но я хотел бы продемонстрировать точность, с которой я могу вычислить дисперсию, например, доказать, что размер выборки 500 достаточен. Мне также интересно знать минимальный размер выборки, который потребуется для оценки дисперсии с точностью до .
Вопросов
Как я могу рассчитать
- точность моей оценки дисперсии с учетом размера выборки ? из ?
- Как я могу рассчитать минимальное количество выборок, необходимое для оценки дисперсии с точностью до ?
пример
Рисунок 1 Оценка плотности параметра на основе 500 образцов.
Рисунок 2 Вот график размера выборки на оси x в сравнении с оценками дисперсии на оси y, которые я рассчитал с использованием подвыборок из выборки 500. Идея состоит в том, что оценки будут сходиться к истинной дисперсии при увеличении n ,
Однако оценки не являются действительными независимыми, поскольку выборки, используемые для оценки дисперсии для , не являются независимыми друг от друга или от выборок, используемых для вычисления дисперсии приn ∈ [ 20 , 40 , 80 ]
Ответы:
Для случайных величин несмещенная оценка для дисперсии (той, которая имеет знаменатель ) имеет дисперсию:s 2 n - 1X1,…,Xn s2 n−1
где - избыточный эксцесс распределения (ссылка: Википедия ). Так что теперь вам нужно оценить и эксцесс вашего распределения. Вы можете использовать количество, иногда описываемое как (также из Википедии ):γ 2κ γ2
Я бы предположил, что если вы используете в качестве оценки для и в качестве оценки для , то вы получите разумную оценку для , хотя я не вижу гарантии что это беспристрастно. Посмотрите, совпадает ли это с разницей между подмножествами ваших 500 точек данных, и не беспокоится ли это больше :)σ γ 2 κ V a r ( s 2 )s σ γ2 κ V a r ( s2)
источник
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Изучать дисперсию сложно.
Во многих случаях требуется (возможно удивительно) большое количество выборок, чтобы хорошо оценить дисперсию. Ниже я покажу разработку для «канонического» случая нормального образца iid.
Предположим, что , являются независимыми случайными величинами. Мы ищем доверительный интервал для дисперсии, такой, что ширина интервала равна , т.е. ширина равна от точечной оценки. Например, если , то ширина CI равна половине значения точечной оценки, например, если , тогда CI будет что-то вроде , с шириной 5. Обратите внимание на асимметрию вокруг точечной оценки. ( - объективная оценка дисперсии.) я = 1 , ... , п N ( μ , сг 2 ) 100 ( 1 - & alpha ; ) % ρ s 2 100 ρ % ρ = 1 / 2 с 2 = 10 ( 8 ,Yя я = 1 , … , н N( μ , σ2) 100 ( 1 - α ) % ρ s2 100 ρ % ρ=1/2 s2=10 с 2(8,13) s2
«(Скорее,« а ») доверительный интервал для равен где - это квантиль распределения хи-квадрат с степенями свободы. (Это вытекает из того факта, что является основной величиной в гауссовой установке.)( n - 1 ) s 2s2 х 2
Мы хотим минимизировать ширину, чтобы поэтому нам осталось решить для , чтобы n ( n - 1 ) ( 1
Для случая доверительного интервала 99% мы получаем для и для . Этот последний случай дает интервал, который ( все еще! ) На 10% больше, чем точечная оценка дисперсии.n=65 ρ=1 n=5321 ρ=0.1
Если выбранный вами уровень достоверности составляет менее 99%, то такой же интервал ширины будет получен для меньшего значения . Но может все еще быть больше, чем вы могли бы предположить.n n
Участок образца размером по сравнению с пропорциональной шириной шоу что - то , что выглядит асимптотически линейные на логарифмическом масштабе; другими словами, отношения, подобные степенному закону. Мы можем оценить силу этих степенных отношений (грубо) какn ρ
что, к сожалению, решительно медленно!
Это своего рода «канонический» случай, чтобы дать вам представление о том, как проводить вычисления. Исходя из ваших графиков, ваши данные не выглядят особенно нормальными; в частности, есть то, что кажется заметным перекосом.
Но это должно дать вам примерное представление о том, чего ожидать. Обратите внимание, что для ответа на ваш второй вопрос, приведенный выше, необходимо сначала установить некоторый уровень доверия, который я установил на уровне 99% в приведенной выше разработке для демонстрационных целей.
источник
Я бы сфокусировался на SD, а не на дисперсии, так как она находится в масштабе, который легче интерпретировать.
Люди иногда смотрят на доверительные интервалы для SD или отклонений, но в основном внимание уделяется средствам.
Результаты, которые вы даете для распределения можно использовать для получения доверительного интервала для (и так же ); большинство вводных текстов по математике и статистике содержат подробности в том же разделе, в котором упоминалось упоминание . Я бы просто взял 2,5% с каждого хвоста.s2/σ2 σ2 σ σ2
источник
Следующее решение было дано Гринвудом и Сандомиром в статье JASA 1950 года.
Пусть - случайная выборка из распределения N ( μ , σ 2 ) . Сделайте выводы о σ, используя в качестве ( смещенной ) оценки стандартное отклонение выборки S = √X1,…,Xn N(μ,σ2) σ
R
код.источник