Как рассчитать доверительный интервал среднего значения?

19

Представьте, что вы повторяете эксперимент три раза. В каждом эксперименте вы собираете три измерения. Трипликаты имеют тенденцию быть довольно близко друг к другу, по сравнению с различиями между тремя экспериментальными средствами. Вычислить великое среднее довольно легко. Но как можно вычислить доверительный интервал для среднего значения?

Образец данных:

Эксперимент 1: 34, 41, 39

Эксперимент 2: 45, 51, 52

Эксперимент 3: 29, 31, 35

Предположим, что значения повторения в эксперименте соответствуют гауссовскому распределению, как и средние значения каждого эксперимента. SD вариации в эксперименте меньше SD среди экспериментальных средств. Предположим также, что в каждом эксперименте нет порядка трех значений. Порядок слева направо для трех значений в каждой строке совершенно произвольный.

Простой подход состоит в том, чтобы сначала вычислить среднее значение каждого эксперимента: 38,0, 49,3 и 31,7, а затем вычислить среднее значение и его 95% доверительный интервал из этих трех значений. При использовании этого метода среднее значение составляет 39,7 с 95% -ным доверительным интервалом от 17,4 до 61,9.

Проблема с этим подходом состоит в том, что он полностью игнорирует различия среди трех экземпляров. Интересно, нет ли хорошего способа объяснить это изменение?

Харви Мотульский
источник
1
Не ответ, просто интуитивное наблюдение. CI для объединенного среднего значения данных (все девять значений) составляет , CI, основанный только на средних значениях . Не уверен, что делает ваш CI (опечатка? 17, а не 27, и 51, а не 61?), Я получаю за стандартную ошибку из трех средних и как квантиль из T dist с 2 df. Я думаю, что КИ, который вы ищете, будет находиться где-то посередине между этими двумя, поскольку у вас есть частичное объединение. Можно также подумать с точки зрения формулы дисперсии , каждый CI использует половину формулы(39,7±2,13)(39,7±12,83)2,984,300,975В(Y)знак равноЕ[В(Y|Yграмм)]+В[Е(Y|Yграмм)]
вероятностное
2
@probabilityislogic: SEM из трех экспериментальных значений составляет 5,168 (а не 2,98, как вы написали), и доверительный интервал, который я дал в исходном сообщении (17,4–61,9), является правильным. SEM вычисляется из SD (8,95) путем деления на квадратный корень из n (квадратный корень из 3). Вы делите на n (3) вместо этого.
Харви Мотульский
моя ошибка, также должна заменить на 6,40 в объединенном интервале (та же ошибка там)2,136,40
вероятностная
следующая ссылка отвечает на это? talkstats.com/showthread.php/11554-mean-of-means
@ TST, кажется, нет ничего, кроме ссылки на Википедию о пуле дисперсии . Хотите разработать?
гл

Ответы:

6

Существует естественный точный доверительный интервал для бабушки в сбалансированной случайной односторонней модели ANOVA Действительно, легко проверитьчто распределение наблюдаемых средств · у я является ˉ у я ~ IID N ( М , τ 2 ) с т 2 = сг 2 б + сг 2 ш

(YяJ|μя)~н.о.р.N(μя,σвес2),Jзнак равно1,...,J,μя~н.о.р.N(μ,σб2),язнак равно1,...,я,
Y¯яY¯я~н.о.р.N(μ,τ2) , и хорошо известно, что сумма квадратовSSbимеет распределениеSSbJτ2χ 2 I - 1 и не зависит от общего наблюдаемого среднего значения ˉ yN(μ,τ2τ2знак равноσб2+σвес2JSSб
SSб~Jτ2χя-12
. Таким образом, ˉ y -μ
Y¯~N(μ,τ2я)
имеетраспределениеСтьюдентаtсI-1степенями свободы, откуда легко получить точный доверительный интервал околоμ.
Y¯-μ1яSSбJ(я-1)
Tя-1μ

Обратите внимание , что этот доверительный интервал не что иное, как классический интервал для среднего значения гауссовского, рассматривая только средства группы как наблюденияY¯я . Таким образом, простой подход, который вы упоминаете:

Простой подход состоит в том, чтобы сначала вычислить среднее значение каждого эксперимента: 38,0, 49,3 и 31,7, а затем вычислить среднее значение и его 95% доверительный интервал из этих трех значений. При использовании этого метода среднее значение составляет 39,7 с 95% -ным доверительным интервалом от 17,4 до 61,9.

правильно. И ваша интуиция по поводу игнорируемого варианта:

Проблема с этим подходом состоит в том, что он полностью игнорирует различия среди трех экземпляров. Интересно, нет ли хорошего способа объяснить это изменение?

неправильно. Я также упоминаю правильность такого упрощения в /stats//a/72578/8402

Обновление 12/04/2014

Некоторые подробности теперь написаны в моем блоге: сокращение модели для получения доверительных интервалов .

Стефан Лоран
источник
Любая помощь в реализации этого решения в Python? stackoverflow.com/questions/45682437/…
blehman
7

Это вопрос оценки в рамках линейной модели смешанных эффектов. Проблема заключается в том, что дисперсия большого среднего представляет собой взвешенную сумму двух компонентов дисперсии, которые должны оцениваться отдельно (через ANOVA данных). Оценки имеют разные степени свободы. Поэтому, хотя можно попытаться построить доверительный интервал для среднего значения, используя обычные формулы для малых выборок (Student t), маловероятно, что он достигнет своего номинального охвата, поскольку отклонения от среднего значения точно не будут соответствовать распределению t Student.

Эта проблема обсуждается в недавней (2010 г.) статье Евы Яросовой « Оценка с использованием линейной модели смешанных эффектов» . (По состоянию на 2015 г. он, по-видимому, больше не доступен в Интернете.) В контексте «небольшого» набора данных (несмотря на это, примерно в три раза больше, чем этот), она использует моделирование для оценки двух приблизительных вычислений КИ (скважина). известное приближение Саттервейта и «метод Кенварда-Роджера»). Ее выводы включают

Имитационное исследование показало, что качество оценки параметров ковариации и, следовательно, корректировки доверительных интервалов в небольших выборках может быть довольно низким ... Плохая оценка может влиять не только на истинный уровень достоверности обычных интервалов, но также может сделать невозможной корректировку. Очевидно, что даже для сбалансированных данных три типа интервалов [обычный, Satterthwaite, KR] могут существенно отличаться. Когда наблюдается различие между обычным и скорректированным интервалами, следует проверить стандартные ошибки оценок параметров ковариации. С другой стороны, когда различия между [тремя] типами интервалов невелики, корректировка представляется ненужной.

Короче говоря, хороший подход, кажется,

  1. Вычислить обычный CI, используя оценки компонентов дисперсии и делая вид, что применяется t-распределение.

  2. Также рассчитайте хотя бы один из скорректированных элементов конфигурации.

  3. Если вычисления "близки", примите обычный CI. В противном случае сообщите, что данных недостаточно для получения надежного КИ.

Whuber
источник
Использование компонентов дисперсии приводит к тому же доверительному интервалу, который я вычислил в исходном посте. Таблица ANOVA имеет SS между столбцами 480,7 с 2 df, что означает, что MS составляет 240,3. SD является sqrt (MSbetween / n) = sqrt (240,3 / 3) = 8,95, что приводит к тому же CI, который я первоначально разместил (17,4 до 61,9). Мне было очень трудно следить за цитируемой вами статьей Ярасова, и я не совсем уверен, что она здесь уместна (похоже, что речь идет о планах повторных мер). ???
Харви Мотульский
@ Харви Ваше описание, безусловно, звучит как повторные меры для меня! Я считаю, что газета Ярасова - это то, что нужно.
whuber
1
Я имею в виду общую ситуацию в лабораториях, где трипликаты - это просто три разных пробирки (или лунки). Порядок трех, представленных в таблице, является произвольным. Нет никакой связи или корреляции между копией № 2 в первом эксперименте и копией № 2 во втором или третьем эксперименте. В каждом эксперименте всего три измерения. Так что не совсем повторные меры. Правильно?
Харви Мотульский
что бы там ни было точное распределение студентов. Смотри мой ответ.
Стефан Лоран
@whuber ссылка, которую вы предоставляете для статьи Евы Ярасовой, мертва, и поиск в Google ничего не дал. Можете ли вы исправить ссылку?
Плацидия
0

Вы не можете иметь один доверительный интервал, который решает обе ваши проблемы. Вы должны выбрать один. Вы можете либо получить одно из среднеквадратичного члена ошибки в пределах дисперсии эксперимента, которое позволяет вам сказать что-то о том, насколько точно вы можете оценить значения в эксперименте, или вы можете сделать это между, и это будет примерно между экспериментами. Если бы я только что сделал первое, я бы хотел построить его около 0, а не вокруг среднего значения, потому что оно ничего не говорит вам о фактическом среднем значении, только об эффекте (в данном случае 0). Или вы можете просто нарисовать и описать, что они делают.

У вас есть ручка между ними. Для внутреннего это все равно, что вычислить член ошибки в ANOVA, чтобы заставить работать MSE, и оттуда SE для CI просто sqrt (MSE / n) (n = 3 в этом случае).

Иоанн
источник
На самом деле вы можете иметь достоверный интервал для каждого среднего и для большого среднего. Просто используйте байесовскую многоуровневую модель. Иногда этот вид оценки называется частичным пулированием. Я думаю, проблема в том небольшом образце.
Маноэль Гальдино
Вы можете иметь доверительный интервал для каждого среднего значения и большого среднего тоже ... но это разные вещи ... точно так же, как вероятные интервалы. Я интерпретировал вопрос как о КИ в отношении дисперсии внутри обучения и между ними как совокупность. Все это все еще оставляет вас с разными КИ, означающими разные вещи. (Я тоже буквально не воспринимал н)
Джон
1
Кроме того, то, что я имел в виду, на самом деле не «не может». Вы могли бы как-то придумать одно уравнение, которое рассчитывает один доверительный интервал для всего. Это просто не значит ничего толкового. Это то, что я имел в виду, не могу.
Джон
Через несколько минут после того, как я написал свой комментарий, я понял, что мы не должны были понимать буквально. Но было поздно его редактировать =).
Маноэль Гальдино
0

Я думаю, что CI для великого среднего значения слишком широк [17,62] даже для диапазона исходных данных.

Эти эксперименты ОЧЕНЬ распространены в химии. Например, при сертификации стандартных образцов вы должны выбрать несколько бутылок из целой партии случайным образом и провести повторный анализ каждой бутылки. Как вы рассчитываете эталонное значение и его неопределенность? Есть много способов сделать это, но наиболее изощренным (и, я думаю, правильным) является применение мета-анализа или ML (Dersimonian-Laird, Vangel-Rukhin и т. Д.)

Как насчет оценки начальной загрузки?

уничтожать
источник
1
Моделирование (10000 испытаний с нормально распределенными основными эффектами и ошибками) показывает, что [21, 58] является симметричным двусторонним 95% -ным доверительным интервалом для среднего значения.
whuber
whuber: Мне было бы любопытно узнать, как вы провели эти симуляции. Начальная загрузка из исходных данных? Или действительно симуляции? Если последнее, какое значение среднего и SD вы использовали для моделирования данных?
Харви Мотульский