Представьте, что вы повторяете эксперимент три раза. В каждом эксперименте вы собираете три измерения. Трипликаты имеют тенденцию быть довольно близко друг к другу, по сравнению с различиями между тремя экспериментальными средствами. Вычислить великое среднее довольно легко. Но как можно вычислить доверительный интервал для среднего значения?
Образец данных:
Эксперимент 1: 34, 41, 39
Эксперимент 2: 45, 51, 52
Эксперимент 3: 29, 31, 35
Предположим, что значения повторения в эксперименте соответствуют гауссовскому распределению, как и средние значения каждого эксперимента. SD вариации в эксперименте меньше SD среди экспериментальных средств. Предположим также, что в каждом эксперименте нет порядка трех значений. Порядок слева направо для трех значений в каждой строке совершенно произвольный.
Простой подход состоит в том, чтобы сначала вычислить среднее значение каждого эксперимента: 38,0, 49,3 и 31,7, а затем вычислить среднее значение и его 95% доверительный интервал из этих трех значений. При использовании этого метода среднее значение составляет 39,7 с 95% -ным доверительным интервалом от 17,4 до 61,9.
Проблема с этим подходом состоит в том, что он полностью игнорирует различия среди трех экземпляров. Интересно, нет ли хорошего способа объяснить это изменение?
источник
Ответы:
Существует естественный точный доверительный интервал для бабушки в сбалансированной случайной односторонней модели ANOVA Действительно, легко проверитьчто распределение наблюдаемых средств · у я ∙ является ˉ у я ∙ ~ IID N ( М , τ 2 ) с т 2 = сг 2 б + сг 2 ш
Обратите внимание , что этот доверительный интервал не что иное, как классический интервал для среднего значения гауссовского, рассматривая только средства группы как наблюденияY¯я ∙ . Таким образом, простой подход, который вы упоминаете:
правильно. И ваша интуиция по поводу игнорируемого варианта:
неправильно. Я также упоминаю правильность такого упрощения в /stats//a/72578/8402
Обновление 12/04/2014
Некоторые подробности теперь написаны в моем блоге: сокращение модели для получения доверительных интервалов .
источник
Это вопрос оценки в рамках линейной модели смешанных эффектов. Проблема заключается в том, что дисперсия большого среднего представляет собой взвешенную сумму двух компонентов дисперсии, которые должны оцениваться отдельно (через ANOVA данных). Оценки имеют разные степени свободы. Поэтому, хотя можно попытаться построить доверительный интервал для среднего значения, используя обычные формулы для малых выборок (Student t), маловероятно, что он достигнет своего номинального охвата, поскольку отклонения от среднего значения точно не будут соответствовать распределению t Student.
Эта проблема обсуждается в недавней (2010 г.) статье Евы Яросовой « Оценка с использованием линейной модели смешанных эффектов» . (По состоянию на 2015 г. он, по-видимому, больше не доступен в Интернете.) В контексте «небольшого» набора данных (несмотря на это, примерно в три раза больше, чем этот), она использует моделирование для оценки двух приблизительных вычислений КИ (скважина). известное приближение Саттервейта и «метод Кенварда-Роджера»). Ее выводы включают
Короче говоря, хороший подход, кажется,
Вычислить обычный CI, используя оценки компонентов дисперсии и делая вид, что применяется t-распределение.
Также рассчитайте хотя бы один из скорректированных элементов конфигурации.
Если вычисления "близки", примите обычный CI. В противном случае сообщите, что данных недостаточно для получения надежного КИ.
источник
Вы не можете иметь один доверительный интервал, который решает обе ваши проблемы. Вы должны выбрать один. Вы можете либо получить одно из среднеквадратичного члена ошибки в пределах дисперсии эксперимента, которое позволяет вам сказать что-то о том, насколько точно вы можете оценить значения в эксперименте, или вы можете сделать это между, и это будет примерно между экспериментами. Если бы я только что сделал первое, я бы хотел построить его около 0, а не вокруг среднего значения, потому что оно ничего не говорит вам о фактическом среднем значении, только об эффекте (в данном случае 0). Или вы можете просто нарисовать и описать, что они делают.
У вас есть ручка между ними. Для внутреннего это все равно, что вычислить член ошибки в ANOVA, чтобы заставить работать MSE, и оттуда SE для CI просто sqrt (MSE / n) (n = 3 в этом случае).
источник
Я думаю, что CI для великого среднего значения слишком широк [17,62] даже для диапазона исходных данных.
Эти эксперименты ОЧЕНЬ распространены в химии. Например, при сертификации стандартных образцов вы должны выбрать несколько бутылок из целой партии случайным образом и провести повторный анализ каждой бутылки. Как вы рассчитываете эталонное значение и его неопределенность? Есть много способов сделать это, но наиболее изощренным (и, я думаю, правильным) является применение мета-анализа или ML (Dersimonian-Laird, Vangel-Rukhin и т. Д.)
Как насчет оценки начальной загрузки?
источник