Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности? На мой взгляд, ответ - нет, поскольку мы можем точно рассчитать истинные значения параметров. Но тогда, какова максимальная доля данных от первоначального населения, которая позволяет нам использовать вышеупомянутые методы?
hypothesis-testing
confidence-interval
sample-size
large-data
population
Мирослав Сабо
источник
источник
Ответы:
Первый вопрос - это вопрос, на который нет общепринятого ответа. Мое собственное мнение похоже на ваше, но другие утверждают, что популяция может рассматриваться как выборка из «сверхпопуляции», где точная природа сверхпопуляции варьируется в зависимости от контекста: например, перепись всех людей, живущих в здание можно рассматривать как образец от всех людей, живущих в похожих зданиях; Перепись населения США (не та, которую можно было бы когда-либо составить по-настоящему полной) можно рассматривать как выборку из сверхпопуляции американцев, которые могут когда-нибудь существовать (или что-то в этом роде). Я думаю, что это часто оправдывает использование p-значений; многим ученым в предметных областях неудобно, если у них нет p-значения. (Но это мое мнение).
Второй вопрос кажется немного странным, чтобы ответить в общем виде. Когда вы получаете образец, который, скажем, составляет более половины населения?
Более серьезной проблемой будет предвзятость. Возвращаясь к переписи населения США, проблема не просто в том, что он скучает по людям, а в том, что люди, которых он пропускает, не являются случайной выборкой из общей численности населения; Таким образом, даже если перепись получит ответы от (для выбора числа) 95% всех людей, если эти 5% будут сильно отличаться, результаты будут предвзятыми.
источник
Предположим, что только 2 из 12 членов комитета - женщины.
Пропорция может быть принята как статистическая характеристика всего населения (комитета). Возможно, что-то должно быть сделано, чтобы исправить дисбаланс, независимо от того, как он возник.16
Или это может быть взято как оценка вероятности выбора женщины в комитет - свойство процесса отбора. Вы можете установить доверительные интервалы вокруг него, проверить, значительно ли он отличается от половины (или другой соответствующей нулевой гипотезы), и так далее. Возможно, процесс должен быть изменен, чтобы сделать его справедливым.
Два взгляда, описательный и логический, не противоречат друг другу, но совершенно различны.
Ответ на второй вопрос заключается в том, что имеет смысл рассчитывать доверительные интервалы и проверять гипотезы о параметре совокупности, даже если выборка проводится только для одного человека. Просто отметьте, что КИ и тесты должны учитывать значительную часть выборочной совокупности : см. Окончательную коррекцию совокупности .
источник