Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему.
Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я заинтересовался оценкой доли пациентов, принимающих конкретное лекарство. Получить эту пропорцию просто. Его доверительный интервал (например, параметрический или загрузочный) невероятно узок / узок, потому что n очень велико. Хотя большая выборка удачна, я все еще ищу способ оценить, представить и / или визуализировать некоторые формы вероятностей ошибок. Хотя кажется бесполезным (если не вводящим в заблуждение) поставить / визуализировать доверительный интервал (например, 95% CI: .65878 - .65881), также невозможно избежать некоторых утверждений о неопределенности.
Пожалуйста, дай мне знать, что ты думаешь. Я был бы признателен за любую литературу на эту тему; способы избежать чрезмерной уверенности в данных даже при большом размере выборки.
Ответы:
Эта проблема возникла и в некоторых моих исследованиях (как разработчик модели эпидемии, я могу позволить себе роскошь создавать свои собственные наборы данных, и с достаточно большими компьютерами они могут иметь произвольный размер. Несколько соображений:
Основная цель больших наборов данных - предоставить точные оценки, поэтому я не думаю, что вам следует избегать этой точности. Но вы должны помнить, что вы не можете улучшить плохие данные, просто собирая большие объемы плохих данных.
источник
Эта проблема возникла в моих собственных рукописях.
1. Параметры отчетности: если у вас есть только один или несколько элементов конфигурации для отчета, то отчетность «(например, 95% CI: .65878 - .65881)» не является слишком многословной, и она подчеркивает точность CI. Тем не менее, если у вас есть многочисленные CI, то общее утверждение может быть более полезным для читателя. Например, я обычно сообщаю о чем-то, что «при таком размере выборки 95% доверительная погрешность для каждой пропорции была меньше +/- 0,010». Я обычно сообщаю о чем-то подобном в методе, или в заголовке таблицы или рисунка, или в обоих.
2. Предотвращение «чрезмерной уверенности» даже при большом размере выборки: при выборке 100 000 центральная предельная теорема обеспечит вам безопасность при составлении отчетов о КИ для пропорций. Таким образом, в описанной вами ситуации вы должны быть в порядке, если нет других нарушений допущений, о которых я не знаю (например, нарушил iid).
источник
Не сообщайте доверительные интервалы. Вместо этого сообщите точный размер выборки и пропорции. Читатель сможет рассчитывать свои собственные КИ так, как он пожелает.
источник
Рассмотрим возможность того, что пропорции 100 разных больниц не сходятся к одному и тому же среднему значению. Вы проверяли на дисперсию между группами? Если между больницами существует ощутимая разница, то предположение о том, что выборки получены из общего нормального распределения, не поддерживается, и вам не следует их объединять.
Однако, если ваши данные действительно поступают из нормально распределенной большой выборки, то вы не найдете полезных «утверждений о неопределенности» как свойство данных, а при размышлении о том, почему или почему не следует обобщать вашу статистику - из-за некоторые присущие коллекции отклонения или отсутствие стационарности и т. д., на которые следует обратить внимание.
источник