У меня есть набор данных об инцидентах по сезонам редких заболеваний. Например, скажем, было 180 случаев весной, 90 летом, 45 осенью и 210 зимой. Я борюсь с тем, уместно ли прикреплять стандартные ошибки к этим числам. Цели исследования являются выводными в том смысле, что мы ищем сезонную картину заболеваемости, которая может повториться в будущем. Таким образом, интуитивно кажется, что должно быть возможно придать меру неопределенности итоговым значениям. Однако я не уверен, как можно вычислить стандартную ошибку в этом случае, поскольку мы имеем дело с простыми подсчетами, а не, например, со средними или пропорциями.
Наконец, будет ли ответ зависеть от того, представляют ли данные совокупность случаев (каждый случай, который когда-либо имел место) или случайную выборку? Если я не ошибаюсь, то, как правило, нет смысла представлять стандартные ошибки в статистике населения, так как нет никаких выводов.
источник
Ответы:
Население - это (гипотетический) набор всех людей, которым грозит заболевание; как правило, он состоит из всех людей (или некоторой четко определяемой подгруппы людей), проживающих в районе исследования. Важно четко определить эту популяцию, поскольку она является целью исследования и всех выводов, сделанных на основе данных.
Когда случаи заболевания являются независимыми (что может быть разумной гипотезой, когда заболевание нелегко передается между людьми и не вызвано местными условиями окружающей среды), и они редки, тогда подсчет должен строго следовать распределению Пуассона . Для этого распределения хорошей оценкой его стандартного отклонения является квадратный корень из числа .
Это примерно, насколько можно пойти с этими ограниченными данными. Эти простые расчеты показали, что:
Характеристика населения имеет решающее значение,
Квадратный корень отсчета является грубой отправной точкой для оценки его стандартной ошибки,
Квадратный корень должен быть умножен (примерно) на некоторый фактор, чтобы отразить отсутствие независимости в случаях заболевания (и этот фактор может приблизительно быть связан с размерами кластеров заболевания),
Различия между этими показателями отражают, главным образом, изменение заболеваемости с течением времени, а не неопределенность (относительно основной интенсивности Пуассона).
источник
Я не шучу, когда спрашиваю: «Стандартная ошибка чего?» Вы можете взять среднее значение этих четырех цифр и вычислить стандартную ошибку этого среднего. Эта статистика и получающийся в результате доверительный интервал имели бы смысл, если бы вы считали, что вы оправданно рассматриваете эти 4 сезона как репрезентативные для всех наборов 4 сезонов, к которым вы можете обобщить. В той степени, в которой вы настолько оправданы, ваши данные действительно будут случайной выборкой населения. Упомянутая вами выборка повлекла бы за собой дополнительный уровень выборки - вы можете назвать это кластерной выборкой, где каждый год представляет собой кластер.
источник