Как рассчитать дисперсию разбиения переменных

Я провожу эксперимент, в котором я собираю (независимые) выборки параллельно, я вычисляю дисперсию каждой группы выборок, и теперь я хочу объединить все тогда, чтобы найти общую дисперсию всех выборок.

Мне трудно найти выход для этого, так как я не уверен в терминологии. Я думаю об этом как о разделе одного RV.

Поэтому я хочу найти $Var(X)$ из $Var(X_1)$ , $Var(X_2)$ , ... и $Var(X_n)$ , где $X$ = $[X_1, X_2, \dots, X_n]$ .

РЕДАКТИРОВАТЬ: Разделы не имеют одинаковый размер / количество элементов, но сумма размеров разделов равна числу выборок в общем наборе выборок.

РЕДАКТИРОВАНИЕ 2: Здесь есть формула для параллельных вычислений , но она охватывает только случай разбиения на два набора, а не $n$ наборов.

variance галламин
источник

Это же , как и мой вопрос здесь: mathoverflow.net/questions/64120/...

Что означает эта последняя скобка? И что вы подразумеваете под "полной дисперсией"? Это что-то, кроме дисперсии объединенного набора данных?

whuber

@whuber какой последний кронштейн? «общая дисперсия» означает дисперсию общего набора данных.

Галламин

Выражение

может означать много вещей (хотя условно это будет вектор): я искал разъяснения.

[X_{1}, X_{2}, \dots, X_{n}]

$[X_1, X_2, \dots, X_n]$

whuber

Ответы:

Формула довольно проста, если все подвыборки имеют одинаковый размер выборки. Если у вас было подвыборок размером (всего выборок), то дисперсия объединенной выборки зависит от среднего значения и дисперсии для каждой выборки: $g$ $k$ $gk$ $E_j$ $V_j$ где подподразумевается дисперсия выборки.

V a r (X_{1}, \dots, X_{g k}) = \frac{k - 1}{g k - 1} (\sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r (E_{j})),

$Var(X_1,\ldots,X_{gk}) = \frac{k-1}{gk-1}(\sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} Var(E_j)),$

V a r (E_{j})

$Var(E_j)$

Демонстрация в R:

> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749

Если размеры выборки не равны, формула не так хороша.

РЕДАКТИРОВАТЬ: формула для неравных размеров выборки

$g$ $k_j, j=1,\ldots,g$ $n=\sum{k_j}$

В a р ({Икс}_{1}, ..., {Икс}_{N}) знак равно \frac{1}{N - 1} (Σ_{J знак равно 1}^{грамм} (К_{J} - 1) В_{J} + Σ_{J знак равно 1}^{грамм} К_{J} ({\bar{Икс}}_{J} - \bar{Икс})^{2}),

$Var(X_1,\ldots,X_{n}) = \frac{1}{n-1}\left(\sum_{j=1}^g (k_j-1) V_j + \sum_{j=1}^g k_j (\bar{X}_j - \bar{X})^2\right),$

\bar{X} = (\sum_{j = 1}^{g} k_{j} {\bar{X}}_{j}) / n

$\bar{X} = (\sum_{j=1}^gk_j\bar{X}_j)/n$

Опять демонстрация:

> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966

$(X_{ji}-\bar{X})^2$ $\bar{X}_j$ $[(X_{ji}-\bar{X}_j)-(\bar{X}_j-\bar{X})]^2$

Анико
источник

Благодарю. К сожалению, я не могу гарантировать, что мои разделы имеют одинаковый размер. Я запускаю массивно параллельный процесс, в котором мне нужно вычислить дисперсии каждого раздела параллельно, а затем объединить в конце, но результаты / выборки из каждого параллельного процесса не равны (это моделирование полученных фотонов методом Монте-Карло).

Галламин

Я не могу +1 этого достаточно, супер полезная формула для параллельных вычислений в среде хранилища данных

Ноа Йеттер

Это просто дополнение к ответу aniko с черновым наброском деривации и некоторым кодом на python, поэтому все кредиты идут на aniko.

вывод

$X_j \in X = \{X_1, X_2, \ldots, X_g\}$ $g$ $k_j = |X_j|$

\begin{aligned} Е_{J} & знак равно Е [{Икс}_{J}] знак равно \frac{1}{К_{J}} Σ_{я знак равно 1}^{К_{J}} {Икс}_{J я} \\ В_{J} & знак равно В a р [{Икс}_{J}] знак равно \frac{1}{К_{J} - 1} Σ_{я знак равно 1}^{К_{J}} ({Икс}_{J я} - Е_{J})^{2} \end{aligned}

$\begin{align*} E_j & = \mathrm{E}\left[X_j\right] = \frac{1}{k_j} \sum_{i=1}^{k_j} X_{ji}\\ V_j & = \mathrm{Var}\left[X_j\right] = \frac{1}{k_j-1} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 \end{align*}$ соответственно. Если мы установим

n = \sum_{j = 1}^{g} k_{j}

$n = \sum_{j=1}^g k_j$ дисперсия полного набора данных определяется как:

\begin{aligned} В a р [Икс] & знак равно \frac{1}{N - 1} Σ_{J знак равно 1}^{грамм} Σ_{я знак равно 1}^{К_{J}} ({Икс}_{J я} - Е [Икс])^{2} \\ знак равно \frac{1}{N - 1} Σ_{J знак равно 1}^{грамм} Σ_{я знак равно 1}^{К_{J}} (({Икс}_{J я} - Е_{J}) - (Е [Икс] - Е_{J}))^{2} \\ знак равно \frac{1}{N - 1} Σ_{J знак равно 1}^{грамм} Σ_{я знак равно 1}^{К_{J}} ({Икс}_{J я} - Е_{J})^{2} - 2 ({Икс}_{J я} - Е_{J}) (Е [Икс] - Е_{J}) + (Е [Икс] - Е_{J})^{2} \\ знак равно \frac{1}{N - 1} Σ_{J знак равно 1}^{грамм} (К_{J} - 1) В_{J} + К_{J} (Е [Икс] - Е_{J})^{2}, \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - \mathrm{E}\left[X\right])^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} \big((X_{ji} - E_j) - (\mathrm{E}\left[X\right] - E_j)\big)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 - 2(X_{ji} - E_j)(\mathrm{E}\left[X\right] - E_j) + (\mathrm{E}\left[X\right] - E_j)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} (k_j - 1) V_j + k_j (\mathrm{E}\left[X\right] - E_j)^2. \end{align*}$ Если у нас одинаковый размер

k

$k$ для каждой части, т.е.

\forall j : k_{j} = k

$\forall j: k_j = k$ Приведенная выше формула упрощает

\begin{aligned} В a р [Икс] & знак равно \frac{1}{N - 1} Σ_{J знак равно 1}^{грамм} (К - 1) В_{J} + К (грамм - 1) В a р [Е_{J}] \\ знак равно \frac{К - 1}{N - 1} Σ_{J знак равно 1}^{грамм} В_{J} + \frac{К (грамм - 1)}{К - 1} В a р [Е_{J}] \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^g (k-1) V_j + k(g-1) \mathrm{Var}\left[E_j\right] \\ & = \frac{k-1}{n-1} \sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} \mathrm{Var}\left[E_j\right] \end{align*}$

код Python

Следующая функция python работает для массивов, разделенных по первому измерению, и реализует «более сложную» формулу для деталей разного размера.

import numpy as np

def combine(averages, variances, counts, size=None):
    """
    Combine averages and variances to one single average and variance.

    # Arguments
        averages: List of averages for each part.
        variances: List of variances for each part.
        counts: List of number of elements in each part.
        size: Total number of elements in all of the parts.
    # Returns
        average: Average over all parts.
        variance: Variance over all parts.
    """
    average = np.average(averages, weights=counts)

    # necessary for correct variance in case of multidimensional arrays
    if size is not None:
        counts = counts * size // np.sum(counts, dtype='int')

    squares = (counts - 1) * variances + counts * (averages - average)**2
    return average, np.sum(squares) / (size - 1)

Может использоваться следующим образом:

# sizes k_j and n
ks = np.random.poisson(10, 10)
n = np.sum(ks)

# create data
x = np.random.randn(n, 20)
parts = np.split(x, np.cumsum(ks[:-1]))

# compute statistics on parts
ms = [np.mean(p) for p in parts]
vs = [np.var(p, ddof=1) for p in parts]

# combine and compare
combined = combine(ms, vs, ks, x.size)
numpied = np.mean(x), np.var(x, ddof=1)
distance = np.abs(np.array(combined) - np.array(numpied))
print('combined --- mean:{: .9f} - var:{: .9f}'.format(*combined))
print('numpied  --- mean:{: .9f} - var:{: .9f}'.format(*numpied))
print('distance --- mean:{: .5e} - var:{: .5e}'.format(*distance))

Мистер Цйолдер
источник