Я столкнулся с трудностями в понимании значения «случайной выборки», а также «случайной переменной iid». Я пытался выяснить смысл из нескольких источников, но все больше запутывался. Я публикую здесь то, что я попробовал и узнал:
Вероятность и статистика Дегрута говорит:
Случайные выборки / iid / Размер выборки: рассмотрим заданное распределение вероятностей на реальной линии, которое может быть представлено либо pf, либо pdf . Говорят , что случайных величин образуют случайную выборку из этого распределения, если эти случайные переменные независимы и маргинальный pf или pdf каждой из них равен . Такие случайные величины также называются независимыми и одинаково распределенными, сокращенно iid Мы называем число n случайных величин размером выборки.
Но одна из других статистических книг, которые у меня есть, говорит:
При случайной выборке мы гарантируем, что каждая отдельная единица в популяции получает равный шанс (вероятность) выбора.
Итак, у меня есть ощущение, что iids - это элементы, которые создают случайную выборку, а процедура выбора случайной выборки - случайная выборка. Я прав?
PS: я очень запутался в этой теме, поэтому я буду признателен за подробный ответ. Благодарю.
источник
Ответы:
Вы не говорите, какова другая книга статистики, но я предполагаю, что это книга (или раздел) о конечной выборке населения .
Когда вы выбираете случайные переменные, т.е. когда вы рассматриваете множество из n случайных переменных, вы знаете, что если они независимы, f ( x 1 , … , x n ) = f ( x 1 ) ⋯ f ( x n ) и распределены одинаково , в частности E ( X i ) = = σ 2 для всех i , тогда:X1,…,Xn n f(x1,…,xn)=f(x1)⋯f(xn) и Var ( X i )E(Xi)=μ Var(Xi)=σ2 i
гдеσ2- второй центральный момент.
Выборка конечного населения несколько отличается. Если популяция имеет размер , в выборке без замены есть ( NN возможные выборкиsiразмераn,и они равновероятны:
p(si(Nn) si n
Например, еслиN=5иn=3, пространство выборок равно{s1,…,s10},
а возможные выборки:
s 1 ={1,2,3}, s 2 ={1,2,4}, с 3 ={1,2,5}, с 4
Пусть будет некоторым средним значением для полугуляции (средний рост, средний доход, ...). Когда n < N, вы можете оценить μ как в случайной выборке: ¯ y s = n ∑ i =μ n<N μ
Это быстрый пример того, как случайная выборка iid (случайная величина) и случайная выборка (конечная популяция) могут различаться. Статистический вывод в основном о случайной переменной выборки, теория выборки о конечной выборке населения.
источник
Я не буду утомлять вас вероятностными определениями и формулами, которые вы легко сможете найти в любом учебнике (или найти здесь хорошее место для начала)
источник
Случайная переменная, обычно пишущая X, является переменной, возможные значения которой являются числовыми результатами случайного явления. Случайное явление может привести к результатам, которые имеют числовые значения, захваченные случайной величиной - например, количество голов в 10 бросках монеты или доходы / высоты и т. Д. В выборке - но это не является необходимым.
В более общем случае Случайная переменная - это функция, которая отображает случайные результаты в числовые значения. Например, каждый день может быть солнечным, облачным или дождливым. Мы можем определить случайную переменную, которая принимает значение 1, если идет дождь, 2, если облачно, и 3, если солнечно. Область случайной величины - это множество возможных результатов.
Чтобы установить случайную переменную, должен быть процесс или эксперимент, связанный с возможными результатами, которые нельзя предсказать с уверенностью.
Теперь перейдем к вопросу независимости. Две случайные величины независимы, если значение одной из них не влияет на PDF другой. Мы не пересматриваем наши прогнозы относительно вероятностей различных значений одной переменной, когда мы знаем что-то о другой переменной. Поэтому в случае независимости последующие PDF-файлы идентичны предыдущим PDF-файлам. Например, если мы неоднократно подбрасываем несмещенную монету, имеющаяся у нас информация о результатах 5 предыдущих бросков не влияет на наш прогноз о текущем броске, она всегда будет 0,5. Однако, если смещение монеты неизвестно и моделируется как случайная переменная, то результат предыдущих 5 бросков влияет на наши прогнозы относительно текущего броска, потому что это позволяет нам делать выводы относительно неизвестного смещения монеты.
Теперь перейдем к вопросу отбора проб. Целью выборки является информирование нас о свойствах базового распределения, который не известен и должен быть выведен. Помните, что Распределение относится к относительной вероятности возможных результатов в Образце Пространства (который также может быть Условной Вселенной). Поэтому, когда мы производим сэмплирование, мы выбираем конечное число результатов из пространства сэмплов и воспроизводим пространство сэмплов в меньшем, более управляемом масштабе. Равная вероятность тогда относится к процессу выборки, а не к вероятности результатов в выборке. Выборка с равной вероятностью подразумевает, что выборка будет отражать пропорции результатов в исходном пространстве выборки. Например, если мы спросим 10, 000 человек, если они когда-либо будут арестованы, вероятно, что выборка, которую мы получим, не будет репрезентативной для Населения - Образца Пространства - поскольку люди, которые были бы арестованы, могут отказаться отвечать, поэтому доля возможных результатов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка. поэтому доля возможных исходов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка. поэтому доля возможных исходов (арестован - не арестован) будет отличаться между нашей выборкой и населением по систематическим причинам. Или, если мы выбрали конкретный район для проведения опроса, результаты не будут отражать город в целом. Таким образом, выборка с равной вероятностью подразумевает, что нет никаких систематических причин - кроме чистой случайности - что заставляет нас полагать, что пропорции возможных результатов в нашей выборке отличаются от пропорций результатов в пространстве Население / выборка.
источник
Случайная выборка - это реализация последовательности случайных величин. Эти случайные переменные могут быть iid или нет.
источник