Получение и интерпретация загруженных доверительных интервалов из иерархических данных

Я заинтересован в получении начального доверительного интервала для количества X, когда это количество измеряется 10 раз в каждом из 10 человек.

Один из подходов состоит в том, чтобы получить среднее значение для отдельного человека, а затем загрузить средства (например, пересчитать средства с заменой).

Другой подход заключается в том, чтобы выполнить следующие действия на каждой итерации процедуры начальной загрузки: в каждом отдельном образце повторить выборку из 10 наблюдений этого человека с заменой, затем вычислить новое среднее значение для этого индивидуума и, наконец, вычислить новое групповое среднее значение. При таком подходе каждый индивидуум, наблюдаемый в исходном наборе данных, всегда вносит вклад в среднее значение группы на каждой итерации процедуры начальной загрузки.

Наконец, третий подход заключается в объединении двух вышеупомянутых подходов: повторная выборка индивидов затем повторная выборка внутри этих лиц. Этот подход отличается от предыдущего подхода тем, что он позволяет одному и тому же человеку вносить многократный вклад в среднее значение группы на каждой итерации, хотя, поскольку каждый вклад создается с помощью независимой процедуры повторной выборки, можно ожидать, что эти вклады будут незначительно отличаться друг от друга.

На практике я нахожу, что эти подходы дают разные оценки для доверительного интервала (например, с одним набором данных, я считаю, что третий подход дает намного большие доверительные интервалы, чем первые два подхода), поэтому мне интересно, что может быть каждый интерпретировать, чтобы представлять.

confidence-interval bootstrap Майк Лоуренс
источник

Ответы:

Ваш первый подход - это примерно между S CI. Если вы хотели измерить в пределах S, тогда это неправильный подход.

Второй подход будет генерировать внутри S CI, который будет применяться только к этим 10 лицам.

Последний подход является правильным для SI. Любое увеличение CI связано с тем, что ваш CI более репрезентативен для CI, который может применяться к населению, а не к этим 10 S.

Джон
источник

Согласно Дэвисону и Хинкли («Методы начальной загрузки и их применение», 1997, раздел 3.8), третий алгоритм является консервативным. Они выступают за четвертый подход: просто передискретизацию предметов.

Эндрю Робинсон
источник

Интересно, мне придется поискать эту ссылку. Вы уверены, что имеете в виду «четвертый» подход? Первый подход, который я перечисляю, кажется, описывает «простую повторную выборку предметов».

Майк Лоуренс

Да, это так, но это описывает повторную выборку субъекта средствами. D & H выступает за повторную выборку предметов и подбор оригинальной модели.

Эндрю Робинсон

Вы также можете увидеть недавно опубликованные: Рен, Шицюань, Лай, Хун, Тонг, Вэньцзин, Аминзаде, Мостафа, Хоу, Сюэчжан и Лай, Шенган (2010) «Непараметрическая начальная загрузка для иерархических данных», Журнал прикладной статистики, 37: 9, 1487 - 1498

Эндрю Робинсон

@Mike: повторная выборка всего кластера - это то, что статистики делают в своих загрузках. Это действительно другая процедура, которая будет эквивалентна вашему «первому» подходу, только если (i) вы только оцениваете среднее значение и (ii) данные не взвешены и сбалансированы. См. Также citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .

StasK