Что мы можем сказать о средней численности населения из выборки 1?

45

Мне интересно, что мы можем сказать, если вообще что-нибудь, о значении населения, когда у меня есть только одно измерение, (размер выборки 1). Очевидно, мы хотели бы иметь больше измерений, но мы не можем их получить.y 1μy1

Мне кажется, что поскольку среднее значение выборки, , тривиально равно , то . Однако при размере выборки 1 дисперсия выборки не определена, и поэтому наша уверенность в использовании в качестве оценки также не определена, верно? Будет ли какой-либо способ ограничить нашу оценку вообще? у1Е[ ˉ у ]=E[Y1]=ц ˉ у ццy¯y1E[y¯]=E[y1]=μy¯μμ

thedu
источник
Да, доверительный интервал на может быть построен при определенных предположениях. Если никто не публикует это, я выследу это. μ
Soakley
5
См. Stats.stackexchange.com/questions/1807 для другой версии того же вопроса (доступно среднее значение выборки, но не ее размер, поэтому фактически среднее значение представляет собой одно наблюдение из неизвестного распределения выборки) и stats.stackexchange .com / questions / 20300 для соответствующего обсуждения.
whuber
недавняя статья, обсуждающая оптимальность этих оценок в нормальном случае: tandfonline.com/doi/full/10.1080/00031305.2017.1360796
user795305

Ответы:

9

Вот совершенно новая статья по этому вопросу для случая Пуассона, в которой используется хороший педагогический подход:

Андерссон. Per Gösta (2015). Классный подход к построению приближенного доверительного интервала среднего Пуассона с использованием одного наблюдения. Американский статистик , 69 (3), 160-164, DOI: 10.1080 / 00031305.2015.1056830 .

С. Коласса - Восстановить Монику
источник
... к сожалению, за платным доступом.
Тим
@Tim: это так. Опять же, членство в ASA не очень дорого, и вы получаете доступ к The American Statistician , JASA и довольно многим другим журналам по очень разумной цене, которую я лично с радостью оплачиваю из своего собственного кармана. Я действительно думаю, что вы получаете ценность своих денег здесь. YMMV, конечно.
С. Коласса - Восстановить Монику
4
+1, но случай Пуассона радикально отличается от нормального случая, потому что дисперсия должна равняться среднему значению. Результат Пуассона довольно прост, тогда какРезультат для обычного случая нелогичен и загадочен. x±9.68|x|
говорит амеба, восстановите Монику
@amoeba: вполне правильно, но ОП не указал никаких ограничений на распространение.
С. Коласса - Восстановить Монику
Это настолько кратко, что это лучше послужит комментарием. Но так как это принятый ответ, вы, вероятно, не захотите преобразовывать его в комментарий. Не могли бы вы тогда суммировать основные положения статьи?
Ричард Харди
42

Если известно, что популяция нормальная, 95% доверительный интервал, основанный на одном наблюдении , определяется какх ± 9,68 | х |x

x±9.68|x|

Об этом говорится в статье «Эффективный доверительный интервал для среднего значения с образцами первого и второго размера», Wall, Boen и Tweedie, The American Statistician , May 2001, Vol. 55, № 2 . ( pdf )

soakley
источник
5
Я ненавижу звучать глупо, но .... конечно нет. Это зависит от юнитов и не ведет себя должным образом (я имею в виду скалярное умножение ...)
Алек Тил
8
@Alec То, что процедура зависит от единиц измерения (то есть она не является инвариантной), не означает, что она автоматически неверна или даже плоха. Этот действительно: прочитайте статью и сделайте математику. Многие признают, что это немного беспокоит . Еще более удивительно, что вам даже не нужно предполагать, что базовый дистрибутив является нормальным: аналогичный результат справедлив для любого унимодального дистрибутива (но 9.68 должен быть увеличен до 19 или около того): см. Ссылки, которые я предоставил в комментарии к этому. вопрос.
whuber
4
В последнем номере журнала было три письма редактору, в одном из которых высказывалось мнение Алека Тила о подразделениях. В ответе Уолла говорится: «Доверительный интервал не является эквивариантным (т. Е. Его вероятность покрытия зависит от отношения ...)". Позже она говорит: «Доверительный интервал не основан на ключевой величине ...» Это необычный подход и результат, без сомнения! |μ|σ
Soakley
5
Просто чтобы сэкономить вам немного времени: письма в редакцию и ответные заметки @soakley появились в The American Statistician , vol. 56, нет 1 (2002) .
С. Коласса - Восстановить Монику
3
Кажется, что это дает доверительные интервалы, охватывающие среднее с вероятностью около когда но с гораздо большей вероятностью в противном случае. Если то очевидно, что вероятность составляет поскольку доверительные интервалы всегда содержат . σ | μ | > 0 μ = 0 100 % 095%σ|μ|>0μ=0100%0
Генри
28

Конечно, есть. Используйте байесовскую парадигму. Скорее всего, у вас есть хоть какое-то представление о том, что может быть, например, что физически он не может быть отрицательным или что он явно не может быть больше 100 (может быть, вы измеряете рост членов вашей местной футбольной команды в старшей школе). в ногах). Сделайте предварительное замечание об этом, обновите его с вашим одиноким наблюдением, и у вас получится замечательный апостериор.μ

С. Коласса - Восстановить Монику
источник
18
(+1) Одно наблюдение будет ошеломлено предыдущим, поэтому может показаться, что то, что вы получите из апостериора, будет не намного больше, чем то, что вы положили в предыдущее.
whuber
Что, если мы объединили такой априор с той вероятностью, которую подразумевает этот убогий? x±9.68|x|
Симон Куанг
@SimonKuang: одна концептуальная проблема заключается в том, что мы можем использовать толькоинтервал после того, как мы наблюдали , так что это не может войти в предыдущий . Иксx±9.68|x|x
С. Коласса - Восстановить Монику
@StephanKolassa Нет, этот интервал (и связанное распределение) формирует вероятность. Наш предшествующий отделен.
Саймон Куанг
@SimonKuang: да, вы правы, моя ошибка. К сожалению, у меня нет времени, чтобы пройти через это в настоящее время, но если вы сделаете это, пожалуйста, напишите, что вы найдете!
С. Коласса - Восстановить Монику
14

Небольшое упражнение на симуляцию, чтобы проиллюстрировать, работает ли ответ @soakley:

# Set the number of trials, M
M=10^6
# Set the true mean for each trial
mu=rep(0,M)
# Set the true standard deviation for each trial
sd=rep(1,M)
# Set counter to zero
count=0
for(i in 1:M){
 # Control the random number generation so that the experiment is replicable 
 set.seed(i)
 # Generate one draw of a normal random variable with a given mean and standard deviation
 x=rnorm(n=1,mean=mu[i],sd=sd[i])
 # Estimate the lower confidence bound for the population mean
 lower=x-9.68*abs(x)
 # Estimate the upper confidence bound for the population mean
 upper=x+9.68*abs(x)
 # If the true mean is within the confidence interval, count it in
 if( (lower<mu[i]) && (mu[i]<upper) ) count=count+1
}
# Obtain the percentage of cases when the true mean is within the confidence interval
count_pct=count/M
# Print the result
print(count_pct)
[1] 1

Из миллиона случайных испытаний доверительный интервал включает в себя истинное среднее значение в миллион раз, то есть всегда . Этого не должно быть, если доверительный интервал составлял 95% доверительный интервал.

Так что формула, похоже, не работает ... Или я допустил ошибку кодирования?

Редактировать: тот же эмпирический результат сохраняется при использовании ; однако для это - таким образом, довольно близко к 95% доверительному интервалу.0,950097 0,95 ( μ , σ ) = ( 1000 , 1000 )(μ,σ)=(1000,1)
0.9500970.95(μ,σ)=(1000,1000)

Ричард Харди
источник
2
Действительно, для не равного 0, это полезно (и +1 для предоставления кода в первую очередь!). Я просто имел в виду, что для предрешено, что 0 всегда будет захвачено. μ = 0μμ=0
Вольфганг
2
(@Wolfgang) Это не способ проверить доверительный интервал. Определение не требует, чтобы level CI покрывал среднее времени в каждом случае : требуется только, чтобы (a) было как минимум такое же покрытие в каждом случае и (b) оно приближалось к этому покрытию в некоторых случаях. Таким образом, для того, чтобы ваш подход был верным и убедительным, вам придется искать большое количество возможностей. Попробуйте1 - αα1αsim <- function(rho, n.iter=1e5, sigma=1, psi=9.68) { mu <- runif(n.iter, 0, sigma) * rho; x <- rnorm(n.iter, mu, sigma); mean(p <- abs(x - mu) <= psi * abs(x)) }; sim(1.75)
whuber
2
Я понимаю, что вы пытаетесь сделать, но я категорически не согласен с утверждением, что «это не способ проверить доверительный интервал». В определении / построении КИ параметр является фиксированной константой. В вашей симуляции постоянно меняется. Для фиксированных , если метод действительно дает 95% ДИ, то он должен покрывать в 95% случаев. Это не так. Кроме того, даже с вашей конструкцией вы получите покрытие, очень близкое к 1 (конечно, теперь мы снова приближаемся к тому, что фиксируется на 0). μ μ μμμμsim(0.1)μ
Вольфганг
2
@Wolfgang проверить определение , используемое бумаги в кавычки, то: , то есть вероятность того, что является в интервале не менее 0,95. µP(Xζ|X|μX+ζ|X|)1αμ
Тим
2
Опять же, это константа. Итак, это прекрасно для симуляции с . Конечно, тогда покрытие должно быть 1. Метод обеспечивает КИ с охватом не менее 95%, и в примере показано (с помощью моделирования или рассуждения), что в некоторых условиях охват может достигать 100%. Так что это не 95% ДИ. Это все еще довольно умный метод для того, чтобы сделать какой-то вывод из такого небольшого количества информации. μ = 0μμ=0
Вольфганг
0

См. Эдельман, Д. (1990) «Доверительный интервал для центра неизвестного унимодального распределения на основе размера выборки один» Американский статистик, том 44, № 4. В статье рассматриваются обычные и непараметрические случаи.

Дэвид Эдельман
источник
3
Добро пожаловать в Stats.SE. Можете ли вы отредактировать свой ответ, чтобы расширить его, чтобы включить основные пункты книги, которую вы цитируете? Это будет более полезно как для оригинального постера, так и для других людей, которые ищут на этом сайте. Кстати, воспользуйтесь возможностью принять Тур , если вы еще этого не сделали. Смотрите также несколько советов о том, как ответить , о справке по форматированию и о написании уравнений с использованием LaTeX / MathJax .
Ertxiem - восстановить Монику
Добро пожаловать на наш сайт, Дэвид. Ваш вклад, как автора этой статьи (который, я считаю, цитировался в нескольких темах здесь), очень ценится, поэтому любая точка зрения или комментарии, которые вы можете предоставить в этом ответе, будут приветствоваться.
whuber