Расчет необходимого размера выборки, точность оценки отклонений?

18

Фон

У меня есть переменная с неизвестным распределением.

У меня есть 500 выборок, но я хотел бы продемонстрировать точность, с которой я могу вычислить дисперсию, например, доказать, что размер выборки 500 достаточен. Мне также интересно знать минимальный размер выборки, который потребуется для оценки дисперсии с точностью до . $X\%$

Вопросов

Как я могу рассчитать

точность моей оценки дисперсии с учетом размера выборки ? из ? $n=500$ $n=N$
Как я могу рассчитать минимальное количество выборок, необходимое для оценки дисперсии с точностью до ? $X$

пример

Рисунок 1 Оценка плотности параметра на основе 500 образцов.

введите описание изображения здесь

Рисунок 2 Вот график размера выборки на оси x в сравнении с оценками дисперсии на оси y, которые я рассчитал с использованием подвыборок из выборки 500. Идея состоит в том, что оценки будут сходиться к истинной дисперсии при увеличении n ,

Однако оценки не являются действительными независимыми, поскольку выборки, используемые для оценки дисперсии для , не являются независимыми друг от друга или от выборок, используемых для вычисления дисперсии при $n \in [10,125,250,500]$ $n\in [20,40,80]$

введите описание изображения здесь

estimation random-variable variance sampling sample-size Abe
источник

Просто знайте, что если компонент вашего неизвестного распределения является распределением Коши, дисперсия не определена.

Майк Андерсон

@ Майк Или действительно бесконечное число других распределений.

Glen_b

11

Для случайных величин несмещенная оценка для дисперсии (той, которая имеет знаменатель ) имеет дисперсию: $X_1, \dotsc, X_n$ $s^2$ $n-1$

V a r (s^{2}) = σ^{4} (\frac{2}{n - 1} + \frac{κ}{n})

$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$

где - избыточный эксцесс распределения (ссылка: Википедия ). Так что теперь вам нужно оценить и эксцесс вашего распределения. Вы можете использовать количество, иногда описываемое как (также из Википедии ): $\kappa$ $\gamma_2$

γ_{2} = \frac{μ_{4}}{σ_{4}} - 3

$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$

Я бы предположил, что если вы используете в качестве оценки для и в качестве оценки для , то вы получите разумную оценку для , хотя я не вижу гарантии что это беспристрастно. Посмотрите, совпадает ли это с разницей между подмножествами ваших 500 точек данных, и не беспокоится ли это больше :) $s$ $\sigma$ $\gamma_2$ $\kappa$ $\mathrm{Var}(s^2)$

Эрик П.
источник

у вас есть ссылка на учебник для объективной оценки дисперсии? Я не знаю, куда идти из Википедии для большего контекста.

Abe

У меня нет стандартного текста « Райс» , поэтому я не могу проверить номер страницы для вас, но я уверен, что он там. Википедия предполагает, что об этом также следует упомянуть в: Монтгомери, округ Колумбия, и Ранджере, округ Колумбия: прикладная статистика и вероятность для инженеров , стр. 201. John Wiley & Sons New York, 1994.

Эрик П.,

спасибо за вашу помощь с этим. Этот ответ был очень полезен, и он был информативным для количественной оценки дисперсионной неопределенности - я применял уравнение около 10 раз в последний день. вычислить легко с библиотекой:

k a p p a

$kappa$ momentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)

Abe

есть ли шанс, что вы нашли номер страницы из текста Райс? Я не могу найти это в Казелле и Бергере. Основная ссылка будет еще лучше, если вы это знаете. На страницу википедии не ссылаются.

Абэ

Хммм ... похоже, у Райс тоже нет формулы. Я буду следить за этим, но на данный момент у меня нет ссылки вообще.

Эрик П.

16

Изучать дисперсию сложно.

Во многих случаях требуется (возможно удивительно) большое количество выборок, чтобы хорошо оценить дисперсию. Ниже я покажу разработку для «канонического» случая нормального образца iid.

Предположим, что , являются независимыми случайными величинами. Мы ищем доверительный интервал для дисперсии, такой, что ширина интервала равна , т.е. ширина равна от точечной оценки. Например, если , то ширина CI равна половине значения точечной оценки, например, если , тогда CI будет что-то вроде , с шириной 5. Обратите внимание на асимметрию вокруг точечной оценки. ( - объективная оценка дисперсии.) $Y_i$ $i=1,\ldots,n$ $\mathcal{N}(\mu, \sigma^2)$ $100(1-\alpha)\%$ $\rho s^2$ $100\rho \%$ $\rho = 1/2$ $s^2 = 10$ $(8,\,13)$ $s^2$

«(Скорее,« а ») доверительный интервал для равен где - это квантиль распределения хи-квадрат с степенями свободы. (Это вытекает из того факта, что является основной величиной в гауссовой установке.) $s^2$

\frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} \leq σ^{2} \leq \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}},

$\frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>,$

χ_{(n - 1)}^{2 β}

$\chi_{(n-1)}^{2\;\beta}$

β

$\beta$

n - 1

$n-1$

(n - 1) s^{2} / σ^{2}

$(n-1)s^2/\sigma^2$

Мы хотим минимизировать ширину, чтобы поэтому нам осталось решить для , чтобы

L (n) = \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} < ρ s^{2},

$L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>,$

n

$n$

(n - 1) (\frac{1}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{1}{χ_{(n - 1)}^{2 (1 - α / 2)}}) < ρ .

$(n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho .$

Для случая доверительного интервала 99% мы получаем для и для . Этот последний случай дает интервал, который ( все еще! ) На 10% больше, чем точечная оценка дисперсии. $n = 65$ $\rho = 1$ $n = 5321$ $\rho = 0.1$

Если выбранный вами уровень достоверности составляет менее 99%, то такой же интервал ширины будет получен для меньшего значения . Но может все еще быть больше, чем вы могли бы предположить. $n$ $n$

Участок образца размером по сравнению с пропорциональной шириной шоу что - то , что выглядит асимптотически линейные на логарифмическом масштабе; другими словами, отношения, подобные степенному закону. Мы можем оценить силу этих степенных отношений (грубо) как $n$ $\rho$

\hat{α} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{- \log 10}{\log \frac{5231}{65}} \approx - 0.525,

$\hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 ,$

что, к сожалению, решительно медленно!

Это своего рода «канонический» случай, чтобы дать вам представление о том, как проводить вычисления. Исходя из ваших графиков, ваши данные не выглядят особенно нормальными; в частности, есть то, что кажется заметным перекосом.

Но это должно дать вам примерное представление о том, чего ожидать. Обратите внимание, что для ответа на ваш второй вопрос, приведенный выше, необходимо сначала установить некоторый уровень доверия, который я установил на уровне 99% в приведенной выше разработке для демонстрационных целей.

кардинальный
источник

это очень хороший ответ на мой вопрос. Однако, хотя я следую расчетам, которые вы делаете для , мне не совсем ясно, является ли единица для процентом в решении для ; Означает ли это, что " меньше " или " меньше от ?"

n | ρ

$n|\rho$

r h o

$rho$

n = 65

$n=65$

ρ < 1

$\rho<1$

ρ

$\rho$

1 \times s^{2}

$1\times s^2$

ρ

$\rho$

1 %

$1\%$

s^{2}

$s^2$

Абэ

@Abe, обновляется и, надеюсь, уточняется в процессе. В предыдущей версии была одна особенно плохая опечатка. Прости за это.

кардинал

очень хороший ответ, но я выбрал один из @Erik, потому что он больше подходит для моей проблемы (так как мой параметр обычно не распространяется).

Абэ

@Abe: не проблема. Вот для чего существует галочка. Мой ответ был (должен) быть иллюстративным, больше всего на свете. Из того, что я могу сказать, он все еще кажется единственным, который отвечает на оба ваших вопроса, и будет (асимптотически) правильным даже в сценарии, который обрисовал Эрик. (+1 к нему более года назад.) :)

кардинал

Вы правы, и я рад, что теперь я вернулся к вашему ответу. В итоге я использовал общий расчет @Erik, но теперь я вижу значение в общем решении. Кроме того, представление CI, а не SD, решит проблему, так как моя аудитория будет запутана, увидев статистику в форме , не понимая, что такое дисперсия. Таким образом, должен сделать это более ясным и соответствовать другим статистическим сводкам. И будет полезно показать асимметрию.

s (s_{s})

$s(s_{s})$

s [l c l, u c l]

$s[lcl,ucl]$

Абэ

1

Я бы сфокусировался на SD, а не на дисперсии, так как она находится в масштабе, который легче интерпретировать.

Люди иногда смотрят на доверительные интервалы для SD или отклонений, но в основном внимание уделяется средствам.

Результаты, которые вы даете для распределения можно использовать для получения доверительного интервала для (и так же ); большинство вводных текстов по математике и статистике содержат подробности в том же разделе, в котором упоминалось упоминание . Я бы просто взял 2,5% с каждого хвоста. $s^2/\sigma^2$ $\sigma^2$ $\sigma$ $\sigma^2$

Карл
источник

(Этот ответ пришел сюда после слияния дублирующего вопроса, сформулированного несколько по-другому.)

whuber

1

Следующее решение было дано Гринвудом и Сандомиром в статье JASA 1950 года.

Пусть - случайная выборка из распределения . Сделайте выводы о используя в качестве ( смещенной ) оценки стандартное отклонение выборки $X_1,\dots,X_n$ $\mathrm{N}(\mu,\sigma^2)$ $\sigma$

S = \sqrt{\sum_{i = 1}^{n} \frac{(X_{i} - \bar{X})^{2}}{n - 1}},

$S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}},$

S

$S$

σ

$\sigma$

0 < u < 1

$0<u<1$

Pr {S < (1 - u) \cdot σ} = a and Pr {S > (1 + u) \cdot σ} = b,

$\Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b,$

γ = 1 - a - b

$\gamma=1-a-b$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} < (n - 1) (1 - u)^{2}} = a

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} > (n - 1) (1 + u)^{2}} = b .

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b.$

(n - 1) S^{2} / σ^{2}

$(n-1)S^2/\sigma^2$

χ_{n - 1}^{2}

$\chi^2_{n-1}$

γ = F_{χ_{(n - 1)}^{2}} ((n - 1) (1 + u)^{2}) - F_{χ_{(n - 1)}^{2}} ((n - 1) (1 - u)^{2}),

$\gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2),$

$n$ $\gamma$ $u$

R код.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

$u=10\%$ $\gamma=95\%$

Sample size n = 193

Zen
источник

Расчет необходимого размера выборки, точность оценки отклонений?

Фон

Вопросов

пример

Ответы: