Когда данные имеют гауссово распределение, сколько выборок будет характеризовать это?

12

Гауссовские данные, распределенные в одном измерении, требуют двух параметров для его характеристики (среднее значение, дисперсия), и, по слухам, около 30 случайно выбранных выборок обычно достаточно для оценки этих параметров с достаточно высокой достоверностью. Но что происходит, когда число измерений увеличивается?

В двух измерениях (например, рост, вес) требуется 5 параметров для определения эллипса «наилучшего соответствия». В трех измерениях это увеличивается до 9 параметров для описания эллипсоида, а в 4-х измерениях требуется 14 параметров. Мне интересно знать, увеличивается ли число образцов, необходимых для оценки этих параметров, с сопоставимой скоростью, с более медленной скоростью или (пожалуйста, нет!) С более высокой скоростью. Еще лучше, если бы было широко распространенное эмпирическое правило, которое предполагает, сколько выборок требуется для характеристики распределения Гаусса в данном количестве измерений, это было бы полезно знать.

Чтобы быть более точным, предположим, что мы хотим определить симметричную «наиболее подходящую» границу с центром в средней точке, внутри которой мы можем быть уверены, что 95% всех образцов упадут. Я хочу знать, сколько выборок может потребоваться, чтобы найти параметры для аппроксимации этой границы (интервал в 1-D, эллипс в 2-D и т. Д.) С достаточно высокой (> 95%) достоверностью, и как это число изменяется по мере того, как количество измерений увеличивается.

omatai
источник
3
Без достаточно точного определения «закрепить», на самом деле невозможно ответить на этот вопрос даже для одномерного гауссиана.
Glen_b
1
Как насчет того, сколько образцов нужно, чтобы быть уверенным, по крайней мере, на 95%, что 95% всех образцов (но только 95% всех образцов) будут находиться в пределах определенного интервала / эллипса / эллипсоида / гиперэллипсоида?
omatai
1
То есть ... 95% всех выборок будут находиться на некотором определенном расстоянии от среднего. Сколько образцов требуется для определения этого расстояния (интервал / эллипс / эллипсоид / и т. Д.) С достоверностью 95% или выше?
omatai
1
Как только у вас есть еще одно независимое значение данных, чем есть параметры (откуда значения в измерениях ), вы можете установить область достоверности 95% вокруг них. (Можно сделать еще лучше, используя нетрадиционные методы .) Это ответ - окончательный, но, вероятно, это не то, что вы ищете. Дело в том, что вам нужно установить некоторую абсолютную шкалу желаемой точности, чтобы получить ответ на этот вопрос. г(d+22)d
whuber
1
Snedecor & Cochran [ Статистические методы , 8-е издание] являются авторитетными специалистами по отбору проб. Они описывают этот процесс в главах 4 и 6: «сначала мы предполагаем, что стандартное отклонение населения ... известно». Позже они пишут: «Таким образом, этот метод наиболее полезен на ранних этапах работы». Например, предыдущие небольшие эксперименты показали, что новый метод дает увеличение примерно на 20%, а составляет около 7%. Исследователь ... [хочет, чтобы] SE составлял 2%, и поэтому устанавливает , давая ... Это ... часто полезно в более поздней работе. σ ± σDσ±n=252(7)/n=2n=25
whuber

Ответы:

7

Объем данных, необходимых для оценки параметров многомерного нормального распределения с точностью до заданной точности с заданной достоверностью, не зависит от измерения, при прочих равных условиях. Поэтому вы можете применять любое эмпирическое правило для двух измерений к задачам более высокого измерения без каких-либо изменений.

Зачем это? Есть только три вида параметров: среднее, дисперсии и ковариации. Ошибка оценки в среднем зависит только от дисперсии и количества данных, . Таким образом, когда имеет многомерное нормальное распределение, а имеют дисперсии , тогда оценки зависят только от и . Отсюда, для достижения достаточной точности при оценке всех , нам нужно только учитывать объем данных , необходимых для , имеющего самый большой из( X 1 , X 2 , , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in(X1,X2,,Xd)Xiσi2E[Xi]σinE[Xi]Xiσi, Поэтому, когда мы рассматриваем последовательность задач оценки для увеличивающихся измерений , все, что нам нужно учитывать, это то, насколько увеличится наибольшее значение . Когда эти параметры ограничены выше, мы заключаем, что объем необходимых данных не зависит от измерения.dσi

Аналогичные соображения применимы к оценке дисперсий и ковариаций : если определенного количества данных достаточно для оценки одной ковариации (или коэффициента корреляции) с требуемой точностью, то - при условии, что базовое нормальное распределение имеет аналогичные значения параметров - того же объема данных будет достаточно для оценки любой ковариации или коэффициента корреляции. σ i jσi2σij


Чтобы проиллюстрировать и обеспечить эмпирическую поддержку этого аргумента, давайте изучим некоторые симуляции. Следующее создает параметры для мультинормального распределения заданных измерений, рисует множество независимых идентично распределенных наборов векторов из этого распределения, оценивает параметры для каждого такого образца и суммирует результаты этих оценок параметров в терминах (1) их средних значений: - чтобы продемонстрировать, что они несмещены (и код работает правильно), и (2) их стандартные отклонения, которые количественно определяют точность оценок. (Не путайте эти стандартные отклонения, которые количественно определяют степень вариации среди оценок, полученных за несколько раз итерации симуляции со стандартными отклонениями, используемыми для определения основного мультинормального распределения!дdИзменения , при условии, что при изменении мы не вносим больших отклонений в само базовое мультинормальное распределение.d

Размеры дисперсий базового распределения контролируются в этом моделировании, делая наибольшее собственное значение ковариационной матрицы равным . Это сохраняет плотность вероятности «облаком» в пределах границ при увеличении размера, независимо от того, какой может быть форма этого облака. Моделирование других моделей поведения системы при увеличении размера может быть создано просто путем изменения способа генерации собственных значений; один пример (с использованием гамма-распределения) показан закомментированным в приведенном ниже коде.1R

То, что мы ищем, это чтобы убедиться, что стандартные отклонения оценок параметров не меняются заметно при изменении размера . Поэтому я показываю результаты для двух крайностей, и , используя одинаковое количество данных ( ) в обоих случаях. Следует отметить, что число параметров, оцениваемых при , равном , намного превышает количество векторов ( ) и даже превышает отдельные числа ( ) во всем наборе данных.d = 2 d = 60 30 d = 60 1890 30 30 * 60 = 1800dd=2d=6030d=601890303060=1800

Начнем с двух измерений: . Существует пять параметров: две дисперсии (со стандартными отклонениями и в этом моделировании), ковариация (SD = ) и два средних (SD = и ). При различных имитациях (которые можно получить путем изменения начального значения случайного начального числа) они будут немного отличаться, но они будут постоянно иметь сопоставимый размер, когда размер выборки равен . Например, в следующем моделировании значения SD составляют , , , и0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18d=20.0970.1820.1260.110.15n=300.0140.2630.0430.040.18соответственно: все они изменились, но имеют сравнимые порядки.

(Эти утверждения могут быть поддержаны теоретически, но суть здесь в том, чтобы предоставить чисто эмпирическую демонстрацию.)

Теперь мы переходим к , сохраняя размер выборки при . В частности, это означает, что каждый образец состоит из векторов, каждый из которых имеет компонентов. Вместо того чтобы перечислять все стандартные отклонения , давайте просто посмотрим на их изображения с использованием гистограмм, чтобы изобразить их диапазоны.n = 30 30 60 1890d=60n=3030601890

фигура

Диаграммы рассеяния в верхнем ряду сравнивают фактические параметры sigma( ) и ( ) со средними оценками, сделанными в течение итераций в этом моделировании. Серые контрольные линии обозначают место идеального равенства: оценки явно работают так, как задумано, и являются непредвзятыми.μ 10 4σmuμ104

Гистограммы отображаются в нижнем ряду, отдельно для всех записей в ковариационной матрице (слева) и для средних (справа). SD отдельных вариаций имеют тенденцию находиться между и то время как SD ковариаций между отдельными компонентами имеют тенденцию находиться между и : точно в диапазоне, достигнутом, когда . Аналогично, SD средних оценок имеют тенденцию находиться между и , что сравнимо с тем, что наблюдалось при . Конечно , нет никаких признаков того, что СД уже увеличился , как0,12 0,04 0,080.080.120.040.08d=20.080.13d=2dподнялся с до .260

Код следует.

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean
Whuber
источник
1

В некоторых кратких числовых значениях приводятся следующие распределения ошибок для подбора 30 выборок, созданных из стандартного нормального распределения, а затем подгонки к одномерному гауссову.

введите описание изображения здесь

Квартили указаны. Предполагается, что этот уровень вариации желателен в многомерном случае.

У меня нет времени, чтобы побить MatLab, чтобы получить общий результат, поэтому я поделюсь своим «правилом большого пальца». 30 предоставляется как эмпирическое правило, или эвристика, поэтому предполагается, что эвристика не является неприемлемой.

Моя эвристика заключается в использовании треугольника Паскаля, умноженного на одномерный регистр. введите описание изображения здесь

Если я использую 2-мерные данные, тогда я перехожу ко 2-й строке и суммирую ее, чтобы получить 2-кратное число выборок или 60 выборок. Для 3d-данных я перехожу к 3-му ряду и суммирую его, чтобы получить 4х количество образцов или 120 образцов. Для данных 5d я перехожу к 5-й строке и суммирую ее, чтобы получить 16-кратное количество выборок или 480 выборок.

Удачи.

РЕДАКТИРОВАТЬ:

Это было интуитивно понятно, но все нужно защищать в математике. Я не могу просто сделать скачок от формулировки полиномиальных форм от Finite Elements с опытом, чтобы получить примерную оценку.

Уравнение для суммы строки треугольника Паскаля равно . kth2k

Моя идея для подхода здесь состоит в том, чтобы приравнять AIC более многомерного распределения с большим количеством выборок к уменьшенному размерному распределению с меньшим количеством образцов.

Информационный критерий Акаике (AIC) определяется как где - остаточная сумма квадратов, - количество выборок, а - количество параметров для модели. , AIC=nlog(RSSn)+2kRSSnk

AIC1=AIC2

n1log(RSS1n1)+2k1=n2log(RSS2n2)+2k2

Для каждого измерения, которое мы исключаем, это означает, что среднее значение теряет строку, а ковариация - как строку, так и столбец. Мы можем заявить это как

k(d)=d2+d .

из

k(d+1)k(d)=2d+2

Предполагая, что ошибка для каждой точки выборки является постоянной, связывает остаточную сумму квадратов с количеством выборок, а член в логарифме остается постоянным. Разница в количестве отсчетов становится постоянной масштабирования.

итак имеем:

n1A+2(k2+2d+2)=n2A+2k2

Решение для увеличения образцов с размерностью дает:

n2n1=(2(k2+2d+2)2k2)A1=(4d+4)A1

Так что же такое функция масштабирования? Предположим, что для двумерного многомерного гауссова число требуемых выборок составляет 15 на параметр. Есть 2 средних и 4 элемента ковариации, следовательно, 6 параметров или 90 выборок. Разница составляет 60 отсчетов, значение . A1=5

введите описание изображения здесь

В этот момент я бы сказал, что эвристика начинается немного низко, но заканчивается примерно в 2 раза числом требуемых выборок. Его лучший выбор, по моему личному мнению, составляет около 4 измерений или около того.

РЕДАКТИРОВАТЬ:

Итак, я прочитал ответ @whuber, и мне это нравится. Это эмпирически, и в этом случае это авторитетно. Я проголосовал за его ответ.

Далее я пытаюсь обсудить и надеюсь, что смогу использовать более ~ 300 символов, и я надеюсь, что смогу вставлять картинки. Поэтому я обсуждаю в рамках ответа. Я надеюсь, что это нормально.

На данный момент я не уверен, что использование AIC для этого или как использовались размер выборки и размеры параметров, было неверным.

Следующие шаги:

  • повторить результаты @ whuber, подтвердить их эмпирически
  • Протестируйте AIC, по крайней мере, в некотором ансамблевом смысле, чтобы убедиться, что это уместно
  • Если AIC подходит, то попытайтесь использовать эмпирические методы, чтобы выявить недостатки в рассуждениях.

Комментарии и предложения приветствуются.

EngrStudent
источник
4
Не могли бы вы дать какое-то оправдание своей эвристике?
whuber
1
И не могли бы вы подтвердить, что сумма 5-й строки на самом деле равна 16?
omatai
1 + 4 + 6 + 4 + 1 = 1 + 10 + 5 = 16. Извините. 16 22. 22. Я, должно быть, полусонный, когда я добавил.
EngrStudent
1
Как вы пришли к для количества параметров? Это слишком много. Например, при компонентах требуется только параметра (для средних, ковариаций и корреляций). Это может объяснить, почему ваша рекомендация требует такого необычайно большого размера выборки! д = 9 54 9 9 362d+12d=9549936
whuber
1
@whuber, я обнаружил, что я учусь больше на своих ошибках (после того, как узнаю о них), чем на своей правоте. Удивительно, но быть неправым - все равно, что быть правым, пока я не узнаю, что я неправ. Спасибо. ted.com/talks/kathryn_schulz_on_being_wrong.html
EngrStudent