Можно ли использовать повторную выборку при начальной загрузке для вычисления доверительного интервала для дисперсии набора данных?

9

Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT). Таким образом, вы можете рассчитать доверительный интервал по среднему значению набора данных, не делая никаких предположений о распределении вероятностей набора данных.

Мне было интересно, если вы могли бы сделать что-то подобное для дисперсии. То есть, если бы мне пришлось многократно повторять выборку из набора данных и каждый раз вычислять дисперсию, будут ли эти отклонения соответствовать определенному распределению (независимо от того, каким было первоначальное распределение вероятностей набора данных)?

Я знаю, что если этот исходный набор данных нормальный, то дисперсии будут следовать распределению хи-квадрат. Но что в случае, если это не нормально?

Casandra
источник

Ответы:

10

Можно ли использовать Bootstrap Resampling для расчета доверительного интервала для дисперсии набора данных?

Да, как и во многих других статистических данных.

Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT).

Это не всегда тот случай, когда вы загружаете среднее значение, то средство начальной загрузки будет следовать нормальному распределению, даже для распределений, для которых применяется CLT.

Nзнак равно100

введите описание изображения здесь

Это не нормально.

Исходный образец состоит из девяноста семи значений «0» и «1», «2» и «100».

Вот код (R), который я запустил, чтобы сгенерировать график выше:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Проблема в том, что в этом случае размер выборки (100) слишком мал для CLT, чтобы применить его с такой формой распределения; не имеет значения, сколько раз мы повторим это.

Однако, если исходный размер выборки намного больше, распределение выборки при повторной выборке означает, что что-то вроде этого будет более нормальным (хотя всегда дискретным).

Вот ecdfs при повторной выборке вышеупомянутых данных (черный) и для значений в тех же пропорциях, но с десятикратным числом значений (красный; то есть n = 1000):

введите описание изображения здесь

Как мы видим, функция распределения при повторной дискретизации большой выборки выглядит гораздо более нормальной.

если бы мне пришлось многократно повторять выборку из набора данных и каждый раз вычислять дисперсию, следовало ли бы это отклонение соответствовать определенному распределению

Нет, по той же причине это не обязательно верно для среднего.

Однако CLT также применяется к дисперсии *; просто вы не можете утверждать, что CLT применяется для повторной выборки при начальной загрузке, просто взяв много повторных выборок. Если исходный размер выборки достаточно велик, это может (при правильных условиях) привести к тому, что распределение средних значений (и более высокие моменты, если они существуют) будут относительно близки к нормальному распределению (относительно его распределения в меньших выборках при наименее).

sN2знак равно1NΣязнак равно1N(Икся-Икс¯)2Yязнак равно(Икся-Икс¯)2sN2знак равноY¯YsN2sN-12sN2sN2sN-12

Glen_b - Восстановить Монику
источник