В чем разница между популяцией и выборкой?

38

В чем разница между популяцией и выборкой? Какие общие переменные и статистика используются для каждой и как они связаны друг с другом?

Baltimark
источник

Ответы:

36

Население - это совокупность исследуемых субъектов. Например, средний рост мужчин. Это гипотетическое население, потому что оно включает в себя всех людей, которые жили, живут и будут жить в будущем. Мне нравится этот пример, потому что он говорит о том, что мы, как аналитики, выбираем население, которое хотим изучать. Как правило, невозможно обследовать / измерить всю популяцию, потому что не все участники являются наблюдаемыми (например, мужчины, которые будут существовать в будущем). Если возможно перечислить все население, это часто обходится дорого и занимает много времени. В приведенном выше примере у нас есть популяция "мужчины" и параметр интереса, их рост.

Вместо этого мы могли бы взять подмножество этой популяции, называемое выборкой, и использовать эту выборку, чтобы сделать выводы об исследуемой популяции, учитывая некоторые условия. Таким образом, мы могли бы измерить средний рост мужчин в выборке населения, которую мы называем статистикой, и использовать ее, чтобы сделать выводы о параметре, представляющем интерес для населения. Это умозаключение, потому что будет определенная неопределенность и неточность, связанные с тем, чтобы делать выводы о населении на основе выборки. Это должно быть очевидно - у нас в выборке меньше членов, чем у нас, поэтому мы потеряли некоторую информацию.

Существует много способов выбора образца, и его изучение называется теорией выборки. Обычно используемый метод называется простой случайной выборкой (SRS). В SRS каждый член населения имеет равную вероятность быть включенным в выборку, отсюда и термин «случайный». Существует много других методов отбора проб, например, стратифицированная выборка, кластерная выборка и т. Д., Которые имеют свои преимущества и недостатки.

Важно помнить, что выборка, которую мы берем из совокупности, является только одной из большого числа потенциальных выборок. Если десять исследователей изучают одну и ту же популяцию, выбирая свои собственные образцы, они могут получить разные ответы. Возвращаясь к нашему более раннему примеру, каждый из десяти исследователей может предложить различную среднюю высоту мужчин, т.е. рассматриваемая статистика (средняя высота) варьируется от выборки к выборке - у нее есть распределение, называемое распределением выборки. Мы можем использовать это распределение, чтобы понять неопределенность в нашей оценке параметра населения.

Распределение выборки среднего значения выборки, как известно, является нормальным распределением со стандартным отклонением, равным стандартному отклонению выборки, деленному на размер выборки. Поскольку это может быть легко спутать со стандартным отклонением образца его более принято называть стандартное отклонение распределения выборки стандартной ошибкой .

Грэм Куксон
источник
7
Не немного ли бессмысленно использовать «всех людей» в качестве населения? Я имею в виду, нет даже единого мнения относительно того , сколько лет гомо сапиенс является, или гомо неандертальцев были отдельным видом, не говоря уже о том Самцы каменного инструмента с использованием гомо умелый считаются «мужчины». Предположительно, с такими же проблемами мы столкнемся и в будущем.
naught101
В последнем абзаце, я думаю, есть небольшая слабость руки, и она должна читать ... "равную стандартному отклонению выборки, деленному на [квадратный корень] размера выборки" по отношению к стандартной ошибке .
Антони Пареллада
13

Население - это совокупность значений или отдельных лиц, которые вас интересуют. Выборка представляет собой подмножество совокупности и представляет собой набор значений, которые вы фактически используете в своей оценке.

Так, например, если вы хотите узнать средний рост жителей Китая, то это ваше население, т. Е. Население Китая. Дело в том, что это довольно большое число, и вы не сможете получить данные для всех там. Итак, вы рисуете образец, то есть вы получаете некоторые наблюдения или рост некоторых людей в Китае (подмножество населения, выборка) и делаете свой вывод на основе этого.

Виви
источник
Хороший ответ. Я думаю, вам следует углубиться в то, что вы подразумеваете под «делать выводы на основе этого». Это вроде второй части моего вопроса.
Балтимарк,
ммм ... я не совсем понял, что вы имели в виду, под какими общими переменными и статистикой ... О, вы имеете в виду, что вы используете z-распределение, если у вас есть дисперсия совокупности и t-распределение, если у вас есть только выборочная дисперсия а размер выборки маленький? Что-то в этом роде?
Виви
Я понял, что среднее значение и стандартное отклонение являются параметрами, связанными с населением, но они оцениваются по среднему значению выборки ((1 / N) * \ sum (x_i)) и стандартному отклонению выборки ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Балтимарк,
8

Население - это все в группе обучения. Например, если вы изучаете цену акций Apple, это исторические, текущие и даже все будущие цены акций. Или, если вы управляете фабрикой яиц, это все яйца, изготовленные фабрикой.

Вам не всегда нужно делать выборки и проводить статистические тесты. Если ваше население - ваша ближайшая живущая семья, вам не нужно выбирать, так как население небольшое.

Выборка популярна по ряду причин:

  • это дешевле, чем перепись (выборка всей популяции)
  • у вас нет доступа к будущим данным, поэтому вы должны проверить прошлые
  • Вы должны уничтожить некоторые предметы, проверив их, и не хотите уничтожать их все (скажем, яйца)
Нил Макгиган
источник
2

Когда мы думаем о термине «население», мы обычно думаем о людях в нашем городе, регионе, штате или стране и их соответствующих характеристиках, таких как пол, возраст, семейное положение, этническая принадлежность, религия и так далее. В статистике термин «население» приобретает несколько иное значение. «Население» в статистике включает всех членов определенной группы, которую мы изучаем или собираем информацию для принятия решений на основе данных.

Часть населения называется выборкой. Это доля населения, его часть, часть и все его характеристики. Выборка - это научно нарисованная группа, которая на самом деле обладает теми же характеристиками, что и популяция, если она выбрана случайным образом (вам может быть трудно поверить, но это правда!)

Произвольно выбранные образцы должны иметь две характеристики:

* Каждый человек имеет равные возможности для отбора по вашему образцу; а также,

* Выбор одного человека не зависит от выбора другого человека.

Что хорошего в случайных выборках, так это то, что вы можете обобщить интересующую вас группу населения. Таким образом, если вы выберете 500 домохозяйств в своем сообществе, вы можете обобщить данные до 50000 домохозяйств, которые там живут. Если вы сопоставите некоторые демографические характеристики 500 с 50000, вы увидите, что они удивительно похожи.

roseleneramas
источник
2
Это в основном правильно, если правильно интерпретировать. Я беспокоюсь, что некоторые читатели могут быть введены в заблуждение, полагая, что простые случайные выборки с заменой (какой тип случайной выборки вы описываете; есть другие виды) правильно воспроизводят все характеристики популяции. На самом деле, они редко делают. Смысл случайной выборки заключается в том, что (неизбежные) различия между характеристиками выборки и характеристиками популяции могут быть отнесены к процессу случайной выборки.
whuber
0

Население включает в себя все элементы из набора данных. Выборка состоит из одного или нескольких наблюдений от населения. BOA, A. (2012, 17)

user91513
источник
2
Когда все элементы «набора данных» считаются совокупностью, этот набор данных называется переписью населения. Очень немногие наборы данных являются переписи.
whuber