Являются ли «случайная выборка» и «случайная переменная» синонимами?

18

Я столкнулся с трудностями в понимании значения «случайной выборки», а также «случайной переменной iid». Я пытался выяснить смысл из нескольких источников, но все больше запутывался. Я публикую здесь то, что я попробовал и узнал:

Вероятность и статистика Дегрута говорит:

Случайные выборки / iid / Размер выборки: рассмотрим заданное распределение вероятностей на реальной линии, которое может быть представлено либо pf, либо pdf f . Говорят , что n случайных величин X1,...,Xn образуют случайную выборку из этого распределения, если эти случайные переменные независимы и маргинальный pf или pdf каждой из них равен f . Такие случайные величины также называются независимыми и одинаково распределенными, сокращенно iid Мы называем число n случайных величин размером выборки.

Но одна из других статистических книг, которые у меня есть, говорит:

При случайной выборке мы гарантируем, что каждая отдельная единица в популяции получает равный шанс (вероятность) выбора.

Итак, у меня есть ощущение, что iids - это элементы, которые создают случайную выборку, а процедура выбора случайной выборки - случайная выборка. Я прав?

PS: я очень запутался в этой теме, поэтому я буду признателен за подробный ответ. Благодарю.

бесшумный
источник
6
Часть независимости очень важна, потому что у нас может быть выборка, в которой все переменные распределены одинаково (имеют одинаковое предельное распределение), но не независимыми. Такая выборка все еще может рассматриваться как случайная выборка, но не эксперимент, который, как вы думаете, является случайной выборкой. Смотрите этот вопрос .
Дилип Сарвэйт
Вопрос не имеет статистического смысла. Ид и случайная выборка - это четко определенные понятия, установленные грамотными людьми.
Субхаш С. Давар
2
@ subhashc.davar Это они? Согласно одному определению: «Случайная выборка представляет собой последовательность независимых случайным образом распределенных (IID) случайных величин». Так что, похоже, iid и случайная выборка это одно и то же? Процитированный параграф в Вероятности и Статистике Дегрута в основном говорит то же самое. Я нахожу это запутанным, потому что «выборка» - это иногда индивидуум или группа индивидов, а иногда последовательность случайных величин.
Гэри Чанг,
@Gary Chang Определение, которое вы цитировали, относится к pdf. Выборка случайных величин была популярна в дисциплине психометрии. Как правило, он используется со ссылкой на надежность или оценку достоверности и для факторного анализа. Психометрия заинтересована в установлении эквивалентности тестов для предметной области. Концепция IID, как представляется, происходит от линейной алгебры. Выборка может быть из данной совокупности людей и / или из совокупности (случайных) переменных в зависимости от цели исследования. Современная статистика, похоже, заимствована из теории измерения.
Субхаш С. Давар

Ответы:

9

Вы не говорите, какова другая книга статистики, но я предполагаю, что это книга (или раздел) о конечной выборке населения .

Когда вы выбираете случайные переменные, т.е. когда вы рассматриваете множество из n случайных переменных, вы знаете, что если они независимы, f ( x 1 , , x n ) = f ( x 1 ) f ( x n ) и распределены одинаково , в частности E ( X i ) = = σ 2 для всех i , тогда: X1,,Xnnf(x1,,xn)=f(x1)f(xn) и Var ( X i )E(Xi)=μVar(Xi)=σ2i гдеσ2- второй центральный момент.

X¯=iXin,E(X¯)=μ,Var(X¯)=σ2n
σ2

Выборка конечного населения несколько отличается. Если популяция имеет размер , в выборке без замены есть ( NN возможные выборкиsiразмераn,и они равновероятны: p(si(Nn)sin Например, еслиN=5иn=3, пространство выборок равно{s1,,s10}, а возможные выборки: s 1 ={1,2,3}, s 2 ={1,2,4}, с 3 ={1,2,5}, с 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10}узнать точное среднее значение по совокупности, еслиn=N(пусть я повторяю: примерно.)
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
Если вы посчитаете количество происшествий каждого человека, вы увидите, что их шесть, то есть каждый человек имеет равные возможности выбора (6/10). Таким образом, каждый является случайной выборкой согласно второму определению. Грубо говоря, это не случайная выборка iid, потому что индивидуумы не являются случайными переменными: вы можете последовательно оценить E [ X ] по среднему значению выборки, но никогда не узнаете его точное значение, но вы можетеsiE[X]n=N1

Пусть будет некоторым средним значением для полугуляции (средний рост, средний доход, ...). Когда n < N, вы можете оценить μ как в случайной выборке: ¯ y s = n i =μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1(1n/N)

Это быстрый пример того, как случайная выборка iid (случайная величина) и случайная выборка (конечная популяция) могут различаться. Статистический вывод в основном о случайной переменной выборки, теория выборки о конечной выборке населения.


1и интерпретировать набор лампочек в качестве (случайной величины) выборки. Скажем теперь, что вы нашли коробку из 1000 лампочек и хотите узнать их среднюю продолжительность жизни. Вы можете выбрать небольшой набор лампочек (конечная выборка), но вы можете выбрать все из них. Если вы выбираете небольшую выборку, это не превращает лампочки в случайные переменные: случайная переменная генерируется вами, так как выбор между «все» и «небольшой набор» остается за вами. Однако, когда конечное население очень велико (скажем, население вашей страны), когда выбор «все» нежизнеспособен, вторая ситуация лучше обрабатывается как первая.

Sergio
источник
1
Что вы имеете в виду "люди не случайные величины?" У Вубер есть некоторые действительно хорошие ответы здесь и здесь, которые используют выборку с конечной совокупностью для объяснения концепции случайной величины.
Jsk
n=N
n=N
Оборонительная? Вы не поняли эти ссылки. Как говорит Вубнер, а) модель «билеты в коробке» - всего лишь игрушечный пример, чтобы избежать жалоб «это вещи выпускного уровня»; б) он избегает называть «население» билетами в коробке и объясняет почему. Так что нет никакого противоречия . Если можно понять, что сказал Вубнер. Кстати, я не случайная величина, а вы?
Серхио
ИМХО, конечно.
Серхио
2

Я не буду утомлять вас вероятностными определениями и формулами, которые вы легко сможете найти в любом учебнике (или найти здесь хорошее место для начала)

i.i.d.how

i.i.dПример : вытянуть случайную карту из колоды и вернуть ее обратно (сделайте это 5 раз). Вы получите 5 реализованных значений (карт). Каждое из этих значений происходит из равномерного распределения (существует равная вероятность получить каждый из результатов), и каждый розыгрыш не зависит от других (то есть тот факт, что вы получаете туз пик в первом розыгрыше, не влияет в любом случае результат, который вы можете получить в других розыгрышах).

i.i.d.

Алекс Креймер
источник
1

Случайная переменная, обычно пишущая X, является переменной, возможные значения которой являются числовыми результатами случайного явления. Случайное явление может привести к результатам, которые имеют числовые значения, захваченные случайной величиной - например, количество голов в 10 бросках монеты или доходы / высоты и т. Д. В выборке - но это не является необходимым.
В более общем случае Случайная переменная - это функция, которая отображает случайные результаты в числовые значения. Например, каждый день может быть солнечным, облачным или дождливым. Мы можем определить случайную переменную, которая принимает значение 1, если идет дождь, 2, если облачно, и 3, если солнечно. Область случайной величины - это множество возможных результатов.
Чтобы установить случайную переменную, должен быть процесс или эксперимент, связанный с возможными результатами, которые нельзя предсказать с уверенностью.

Теперь перейдем к вопросу независимости. Две случайные величины независимы, если значение одной из них не влияет на PDF другой. Мы не пересматриваем наши прогнозы относительно вероятностей различных значений одной переменной, когда мы знаем что-то о другой переменной. Поэтому в случае независимости последующие PDF-файлы идентичны предыдущим PDF-файлам. Например, если мы неоднократно подбрасываем несмещенную монету, имеющаяся у нас информация о результатах 5 предыдущих бросков не влияет на наш прогноз о текущем броске, она всегда будет 0,5. Однако, если смещение монеты неизвестно и моделируется как случайная переменная, то результат предыдущих 5 бросков влияет на наши прогнозы относительно текущего броска, потому что это позволяет нам делать выводы относительно неизвестного смещения монеты.

Теперь перейдем к вопросу отбора проб. Целью выборки является информирование нас о свойствах базового распределения, который не известен и должен быть выведен. Помните, что Распределение относится к относительной вероятности возможных результатов в Образце Пространства (который также может быть Условной Вселенной). Поэтому, когда мы производим сэмплирование, мы выбираем конечное число результатов из пространства сэмплов и воспроизводим пространство сэмплов в меньшем, более управляемом масштабе. Равная вероятность тогда относится к процессу выборки, а не к вероятности результатов в выборке. Выборка с равной вероятностью подразумевает, что выборка будет отражать пропорции результатов в исходном пространстве выборки. Например, если мы спросим 10, 000 человек, если они когда-либо будут арестованы, вероятно, что выборка, которую мы получим, не будет репрезентативной для Населения - Образца Пространства - поскольку люди, которые были бы арестованы, могут отказаться отвечать, поэтому доля возможных результатов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка. поэтому доля возможных исходов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка. поэтому доля возможных исходов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка.

RF7
источник
-2

Случайная выборка - это реализация последовательности случайных величин. Эти случайные переменные могут быть iid или нет.

Мохсен
источник