Я провожу эксперимент, в котором я собираю (независимые) выборки параллельно, я вычисляю дисперсию каждой группы выборок, и теперь я хочу объединить все тогда, чтобы найти общую дисперсию всех выборок.
Мне трудно найти выход для этого, так как я не уверен в терминологии. Я думаю об этом как о разделе одного RV.
Поэтому я хочу найти из , , ... и , где = .
РЕДАКТИРОВАТЬ: Разделы не имеют одинаковый размер / количество элементов, но сумма размеров разделов равна числу выборок в общем наборе выборок.
РЕДАКТИРОВАНИЕ 2: Здесь есть формула для параллельных вычислений , но она охватывает только случай разбиения на два набора, а не наборов.
Ответы:
Формула довольно проста, если все подвыборки имеют одинаковый размер выборки. Если у вас было подвыборок размером k (всего g k выборок), то дисперсия объединенной выборки зависит от среднего значения E j и дисперсии V j для каждой выборки: V a r ( X 1 , … , X g k ) = k - 1грамм К граммК ЕJ ВJ где подVar(Ej)подразумевается дисперсия выборки.
Демонстрация в R:
Если размеры выборки не равны, формула не так хороша.
РЕДАКТИРОВАТЬ: формула для неравных размеров выборки
Опять демонстрация:
источник
Это просто дополнение к ответу aniko с черновым наброском деривации и некоторым кодом на python, поэтому все кредиты идут на aniko.
вывод
код Python
Следующая функция python работает для массивов, разделенных по первому измерению, и реализует «более сложную» формулу для деталей разного размера.
Может использоваться следующим образом:
источник