Как сделать репрезентативную выборку из большого общего набора данных?

10

Каковы статистические методы для создания выборочного набора, который является репрезентативным для всего населения (с известным уровнем достоверности)?

Также,

  • Как проверить, соответствует ли образец общему набору данных?
  • Возможно ли это без разбора всего набора данных (который может быть миллиардами записей)?
Мохит Ранка
источник

Ответы:

8

Если вы не хотите анализировать весь набор данных, вы, вероятно, не сможете использовать стратифицированную выборку , поэтому я бы предложил взять большую простую случайную выборку . Выбирая случайную выборку, вы гарантируете, что выборка в среднем будет представлять весь набор данных, а стандартные статистические показатели точности, такие как стандартные ошибки и доверительные интервалы, сообщат вам, насколько далеки от значений совокупности ваши вероятные оценки выборки. таким образом, нет никакой реальной необходимости проверять, что выборка является репрезентативной для населения, если у вас нет каких-либо опасений, которые действительно были выбраны случайным образом.

Насколько велика простая случайная выборка? Что ж, чем больше выборка, тем точнее будут ваши оценки. Поскольку у вас уже есть данные, обычные вычисления размера выборки на самом деле не применимы - вы также можете использовать как можно большую часть своего набора данных для вычислений. Если вы не планируете делать какие-либо сложные анализы, которые сделают время вычислений проблемой, простым подходом было бы сделать простую случайную выборку настолько большой, насколько можно проанализировать на вашем ПК, не приводя к подкачке страниц.или другие проблемы с памятью. Одно эмпирическое правило, ограничивающее размер вашего набора данных не более чем половиной оперативной памяти вашего компьютера, чтобы иметь пространство для манипулирования им и оставить место для ОС и, возможно, пары других небольших приложений (таких как редактор и веб-браузер). ). Другое ограничение состоит в том, что 32-разрядные операционные системы Windows не позволяют адресному пространству для любого отдельного приложения быть больше чем байт = 2,1 ГБ, поэтому, если вы используете 32-разрядную версию Windows, 1 ГБ может быть разумный лимит на размер набора данных.231

Затем необходимо выполнить простую арифметику, чтобы рассчитать, сколько наблюдений вы можете выбрать, учитывая, сколько у вас переменных для каждого наблюдения и сколько байтов занимает каждая переменная.

универсальный
источник
Спасибо за Ваш ответ. Я думаю, я ищу стратифицированную выборку. (Я искал алгоритмы, которые в вычислительном отношении не очень дороги, так как не разбирают все население для создания репрезентативного набора, даже не имеет смысла. :-))
Мохит Ранка
2

По второму вопросу вы можете спросить: «Как вводились данные?» Если вы считаете, что данные были введены относительно произвольным образом (т.е. независимо от каких-либо наблюдаемых или ненаблюдаемых характеристик ваших наблюдений, которые могут повлиять на ваш окончательный анализ с использованием данных), то вы можете рассмотреть первые 5 миллионов, скажем, или со многими, с которыми вам удобно работать, в качестве представителя полной выборки и случайного выбора из этой группы, чтобы создать образец, с которым вы можете работать.

Чтобы сравнить два эмпирических распределения, вы можете использовать qq-plots и непараметрический критерий Колмогорова – Смирнова с двумя выборками для различий в распределениях (см., Например, здесь: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). В этом случае вы должны проверить распределение каждой переменной в вашей выборке по отношению к распределению этой переменной в вашем «полном» наборе данных (опять же, это может быть всего 5 миллионов наблюдений из вашей полной выборки). Тест KS может страдать от низкой мощности (т. Е. Трудно отвергнуть нулевую гипотезу о том, что между группами нет различий), но с таким количеством наблюдений с вами все будет в порядке.

Чарли
источник