Стандартная ошибка подсчета

14

У меня есть набор данных об инцидентах по сезонам редких заболеваний. Например, скажем, было 180 случаев весной, 90 летом, 45 осенью и 210 зимой. Я борюсь с тем, уместно ли прикреплять стандартные ошибки к этим числам. Цели исследования являются выводными в том смысле, что мы ищем сезонную картину заболеваемости, которая может повториться в будущем. Таким образом, интуитивно кажется, что должно быть возможно придать меру неопределенности итоговым значениям. Однако я не уверен, как можно вычислить стандартную ошибку в этом случае, поскольку мы имеем дело с простыми подсчетами, а не, например, со средними или пропорциями.

Наконец, будет ли ответ зависеть от того, представляют ли данные совокупность случаев (каждый случай, который когда-либо имел место) или случайную выборку? Если я не ошибаюсь, то, как правило, нет смысла представлять стандартные ошибки в статистике населения, так как нет никаких выводов.

Принимание
источник
Счет просто ненормированная пропорция, поэтому вы можете вычислить св. ошибка пропорции и «ненормализовать» ее на счетные единицы, если это имеет смысл для вас. Вы правы, что ул. Ошибка применима только к образцу. В популяции нет ошибок.
ttnphns

Ответы:

14

Население - это (гипотетический) набор всех людей, которым грозит заболевание; как правило, он состоит из всех людей (или некоторой четко определяемой подгруппы людей), проживающих в районе исследования. Важно четко определить эту популяцию, поскольку она является целью исследования и всех выводов, сделанных на основе данных.

Когда случаи заболевания являются независимыми (что может быть разумной гипотезой, когда заболевание нелегко передается между людьми и не вызвано местными условиями окружающей среды), и они редки, тогда подсчет должен строго следовать распределению Пуассона . Для этого распределения хорошей оценкой его стандартного отклонения является квадратный корень из числа .

(180,90,45,210)(13,4,9,5,6,7,14,5)В этом случае фактическое количество заболеваний, наблюдаемых в течение сезона, будет отличаться от этого фактического показателя. Квадратный корень истинной (но неизвестной!) Нормы количественно определяет количество возможных изменений. Поскольку наблюдаемые отсчеты должны быть близки к истинным ставкам, их квадратные корни должны быть разумными проксами для квадратных корней истинных ставок. Эти прокси - именно то, что подразумевается под «стандартной ошибкой».

1657714,577

9(20,10,5,23)(4.5,3,2,2,2,4,8)9(40,28,5,20,44)

Это примерно, насколько можно пойти с этими ограниченными данными. Эти простые расчеты показали, что:

  • Характеристика населения имеет решающее значение,

  • Квадратный корень отсчета является грубой отправной точкой для оценки его стандартной ошибки,

  • Квадратный корень должен быть умножен (примерно) на некоторый фактор, чтобы отразить отсутствие независимости в случаях заболевания (и этот фактор может приблизительно быть связан с размерами кластеров заболевания),

  • Различия между этими показателями отражают, главным образом, изменение заболеваемости с течением времени, а не неопределенность (относительно основной интенсивности Пуассона).

Whuber
источник
1
Очень вдумчивый, тщательный ответ! Огромное спасибо.
половина пройдет
2

Я не шучу, когда спрашиваю: «Стандартная ошибка чего?» Вы можете взять среднее значение этих четырех цифр и вычислить стандартную ошибку этого среднего. Эта статистика и получающийся в результате доверительный интервал имели бы смысл, если бы вы считали, что вы оправданно рассматриваете эти 4 сезона как репрезентативные для всех наборов 4 сезонов, к которым вы можете обобщить. В той степени, в которой вы настолько оправданы, ваши данные действительно будут случайной выборкой населения. Упомянутая вами выборка повлекла бы за собой дополнительный уровень выборки - вы можете назвать это кластерной выборкой, где каждый год представляет собой кластер.

rolando2
источник