66

Это не вопрос домашнего труда, а реальная проблема, с которой сталкивается наша компания.

Совсем недавно (2 дня назад) мы заказали у дилера 10000 этикеток. Дилер - независимый человек. Он получает этикетки, изготовленные извне, и компания производит оплату дилеру. Каждый лейбл стоил компании ровно 1 доллар.

Вчера дилер пришел с этикетками, но этикетки были упакованы в пакет из 100 этикеток каждая. Таким образом, было всего 100 пакетов, и каждый пакет содержал 100 меток, таким образом, всего 10000 меток. Перед тем, как произвести оплату дилеру в размере 10000 долларов, мы решили подсчитать несколько пакетов, чтобы каждый пакет точно содержал 100 ярлыков. Когда мы посчитали этикетки, мы обнаружили, что в пакете не было 100 этикеток (мы нашли 97 этикеток). Чтобы убедиться, что это не случайно, а сделано намеренно, мы посчитали еще 5 пакетов и обнаружили следующее количество меток в каждом пакете (включая первый пакет):

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97

Было невозможно сосчитать каждый пакет, поэтому мы решили произвести оплату в среднем. Таким образом, среднее количество этикеток в шести пакетах составляет 97,166, поэтому общая сумма оплаты составила 9716 долларов.

Я просто хочу знать, как статистика должна иметь дело с такой проблемой .
Кроме того, я хочу знать, сколько мы должны заплатить, чтобы получить 95% уверенности, что мы не заплатили больше, чем фактическое количество целых лейблов.

Дополнительная информация:

P (любой пакет содержал более 100 меток) = 0
P (любой пакет содержал метки менее 90) = 0 {метки менее 90 будут легко обнаружены при подсчете пакетов, поскольку пакет будет иметь меньший вес}

РЕДАКТИРОВАТЬ: Дилер просто отрицал такую халатность. Мы обнаружили, что эти дилерские работы выполняются с определенной комиссией, которую они получают от производителя за то, что платит компания. Когда мы связались напрямую с производителем, мы обнаружили, что это не ошибка производителя или дилера. Производитель сказал: «Этикетки становятся короткими, потому что листы не стандартизированы по размеру , и независимо от того, какое число вырезают из одного листа, они объединяют их в пачку».

Кроме того, мы проверяем наше первое утверждение, приведенное в дополнительной информации, поскольку производитель признал, что из-за незначительного увеличения размера листа невозможно вырезать дополнительные этикетки, а также из-за предельного уменьшения размера листа невозможно вырезать 100 этикеток одинакового размера.

probability bayesian model decision-theory Neeraj
источник

7

+1 (1) Как вы можете обосновать первое утверждение в разделе «дополнительная информация»? (2) Насколько точно вы можете взвесить пакеты?

whuber

15

Англия и Исаак Ньютон столкнулись с той же проблемой 300 лет назад. (Ставки были несколько выше, потому что рассматриваемые «ярлыки» были чеканенными монетами.) Поэтому вам может понравиться чтение рассказа Стефана Стиглера «Испытание гадюки» по адресу stat.wisc.edu/sites/default/files/TR442_0.pdf .

whuber

7

@Neeraj Если вес всех предметов одинаков, почему бы не взвесить всю доставку?

Восстановить Монику

9

Предложите заплатить 9000 долларов и подождите, пока они скажут: «Но мы только вас закорочили 600, а не 1000»

Дин МакГрегор

5

Помимо вопроса о большой статистике +1, я хотел бы поделиться более прямым советом из многолетнего опыта в полиграфическом бизнесе: все настоящие профессиональные принтеры имеют такую политику переполнения / переполнения, как это, потому что большинство принтеров не предлагают точных подсчетов на все, что не использует «нумерацию» (индивидуальные серийные номера). Но у них должно быть отличное количество того, что они вам дали, и, если коротко, скидка вам больше, чем незначительная (скажем, 5%). Взимание полной цены за известные неполадки НЕ является стандартной политикой.

BrianH

20

Мне было бы интересно получить отзывы о начале абзаца «После размышления ...», поскольку определенная часть модели не давала мне спать по ночам.

Байесовская модель

Пересмотренный вопрос заставляет меня думать, что мы можем разработать модель явно, без использования моделирования. Моделирование внесло дополнительную изменчивость из-за присущей случайности выборки. Ответ софологов велик, хотя.

Допущения : наименьшее количество этикеток на конверт составляет 90, а самое большое - 100.

Поэтому наименьшее возможное количество меток составляет 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (согласно данным OP), 9000 - из-за нашей нижней границы, а дополнительные метки - из наблюдаемых данных.

Обозначим количество этикеток в конверте . Обозначим количество меток свыше 90, т.е. , поэтому . В биномиальное распределение моделей общее число успехов (здесь успех является присутствие метки в конверте) в испытаниях , когда испытания независимы с постоянной вероятностью успеха так принимает значенияМы берем , что дает 11 различных возможных результатов. Я предполагаю, что, поскольку размеры листов нерегулярны, на некоторых листах есть место только для $Y_i$ $i$ $X_i$ $X=Y-90$ $X\in\{0,1,2,...,10\}$ $n$ $p$ $X$ $0, 1, 2, 3, ..., n.$ $n=10$ $X$ дополнительные метки, превышающие 90, и что это «дополнительное пространство» для каждой метки, превышающей 90, возникает независимо с вероятностью . Итак, $p$ $X_i\sim\text{Binomial}(10,p).$

(Если подумать, предположение о независимости / биномиальная модель, вероятно, является странным предположением, поскольку оно эффективно фиксирует компоновку листов принтера как унимодальную, и данные могут только изменять местоположение режима, но модель никогда не допустит мультимодальный дистрибутив. Например, при альтернативной модели возможно, что принтер толькоимеет листы размеров 97, 98, 96, 100 и 95: это удовлетворяет всем заявленным ограничениям, и данные не исключают эту возможность. Возможно, более уместно рассматривать каждый размер листа как свою собственную категорию, а затем подгонять к данным модель многочлена Дирихле. Я не делаю этого здесь, потому что данных очень мало, поэтому последующие вероятности по каждой из 11 категорий будут очень сильно зависеть от предыдущих. С другой стороны, подгоняя более простую модель, мы также сужаем виды умозаключений, которые мы можем сделать.)

Каждый конверт это н.о.р. реализация . Сумма биномиальных испытаний с одинаковой вероятностью успеха также является биномиальной, поэтому(Это теорема - для проверки используйте теорему единственности MGF.) $i$ $X$ $p$ $\sum_i X_i\sim\text{Binomial}(60,p).$

Я предпочитаю думать об этих проблемах в байесовском режиме, потому что вы можете делать прямые вероятностные заявления о апостериорных количествах интереса. Типичным предшествующим для биномиальных испытаний с неизвестным является бета-распределение , которое является очень гибким (варьируется от 0 до 1, может быть симметричным или асимметричным в любом направлении, однородным или одной из двух масс Дирака, иметь антимод или режим). Это удивительный инструмент!) При отсутствии данных представляется разумным предполагать равномерную вероятность по . То есть можно ожидать, что лист вмещает 90 меток, а не 91, а 92, ..., 100 и 100. Таким образом, наш предшествующий код - $p$ $p$ $p\sim\text{Beta}(1,1).$ Если вы не думаете, что эта предварительная бета-версия является разумной, универсальная предварительная версия может быть заменена другой предварительной бета-версией, и математика даже не увеличится в сложности!

Апостериорное распределение на является свойствами сопряженности этой модели. Это только промежуточный шаг, потому что мы не заботимся о так же сильно, как об общем количестве меток. К счастью, свойства сопряженности также означают, что апостериорное распределение листов является бета-биномиальным , с параметрами бета-апостериорного. Существует повторных «испытаний», т. Е. Ярлыков, для которых их присутствие в доставке является неопределенным, поэтому нашей оставшейся моделью на оставшихся ярлыках является $p$ $p\sim\text{Beta}(1+43,1+17)$ $p$ $940$ $Z$ $Z\sim\text{BB}(44,18,940).$

Поскольку у нас есть распределение по и модель стоимости на этикетку (поставщик согласился на один доллар за этикетку), мы также можем вывести распределение вероятностей по стоимости лота. Обозначим общую долларовую стоимость лота. Мы знаем, что , потому что моделирует только те метки, в которых мы не уверены. Таким образом, распределение по стоимости дается . $Z$ $D$ $D=9043+Z$ $Z$ $D$

Как правильно оценить цену лота?

Мы можем обнаружить, что квантили на 0,025 и 0,975 (95% интервал) составляют 553 и 769, соответственно. Таким образом, интервал 95% на D равен . Ваш платеж попадает в этот интервал. (Распределение на не совсем симметрично, так что это не центральный 95% интервал - однако асимметрия незначительна. В любом случае, как я укажу ниже, я не уверен, что центральный 95% интервал является даже правильным один рассмотреть!) $[9596, 9812]$ $D$

Мне не известна квантильная функция для бета-биномиального распределения в R, поэтому я написал свою собственную, используя поиск корня R.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

Другой способ думать об этом - просто думать об ожидании. Если бы вы повторили этот процесс много раз, какую среднюю стоимость вы бы заплатили? Мы можем вычислить ожидание напрямую. У бета-биномиальной модели есть ожидание , поэтому почти столько же, сколько вы заплатили. Ваша ожидаемая потеря по сделке составила всего 6 долларов! Все сказано, молодец! $D$ $\mathbb{E}(D)=\mathbb{E}(9043+Z)=\mathbb{E}(Z)+9043.$ $\mathbb{E}(Z)=\frac{n\alpha}{\alpha+\beta}=667.0968$ $\mathbb{E}(D)=9710.097,$

Но я не уверен, что любая из этих цифр является наиболее актуальной. В конце концов, этот продавец пытается обмануть вас! Если бы я заключал эту сделку, я бы перестал беспокоиться о безубыточности или справедливой стоимости лота и начал бы определять вероятность того, что я переплачиваю! Продавец явно пытается обмануть меня, поэтому я вполне могу минимизировать свои потери и не беспокоиться о точке безубыточности. В этой ситуации самая высокая цена, которую я бы предложил, составляет 9615 долларов, потому что это 5% квантиля апостериорного на , то есть есть вероятность 95%, что я недоплачиваю $D$ . Продавец не может доказать мне, что все этикетки есть, поэтому я собираюсь хеджировать свои ставки.

(Конечно, тот факт, что продавец согласился на сделку, говорит нам о том, что у него есть неотрицательный реальный убыток ... Я не нашел способа использовать эту информацию, чтобы помочь нам более точно определить, сколько вас обманули, за исключением примечания что, поскольку он принял предложение, вы в лучшем случае были безубыточны.)

Сравнение с бутстрапом

У нас есть только 6 наблюдений для работы. Обоснование начальной загрузки является асимптотическим, поэтому давайте рассмотрим, как будут выглядеть результаты на нашей небольшой выборке. Этот график показывает плотность моделирования Boostrap.

«Ухабистый» рисунок - это артефакт небольшого размера выборки. Включение или исключение какой-либо одной точки будет иметь драматический эффект, создавая этот «групповой» внешний вид. Байесовский подход сглаживает эти скопления и, на мой взгляд, является более правдоподобным портретом происходящего. Вертикальные линии - это 5% квантилей.

Восстановить Монику
источник

это отличный ответ. Вы предоставили новое понимание, штрафуя за риск. Спасибо

Neeraj

1

Я был просто счастлив узнать, что ваша ожидаемая потеря составила всего 6 долларов. :-) Еще раз спасибо за отличный вопрос.

Восстановить Монику

1

n

$n$

p

$p$

0, 1, 2, 3, . . . ., n .

$0, 1, 2, 3, ...., n.$

n = 10

$n=10$

X

$X$

p

$p$

Восстановить Монику

1

0, 1, 2, 3, . . .

$0,1,2,3,...$

101, 102, 103, . . ., 10^{6}

$101, 102, 103, ..., 10^6$

10^{6}

$10^6$

0 \leq X \leq 10

$0\le X\le 10$

1

Давайте продолжим эту дискуссию в чате .

Восстановить Монику

20

РЕДАКТИРОВАТЬ: Трагедия! Мои первоначальные предположения были неверны! (Или, по крайней мере, сомневаетесь - доверяете ли вы тому, что говорит вам продавец? Тем не менее, также, как и Мортену). Что, я думаю, является еще одним хорошим введением в статистику, но теперь добавлен частичный подход к листам ( так как людям, похоже, нравится весь лист, и, возможно, кто-то все равно найдет это полезным).

Прежде всего, большая проблема. Но я хотел бы сделать это немного сложнее.

Поэтому, прежде чем я это сделаю, позвольте мне сделать это немного проще и сказать - метод, который вы используете прямо сейчас, совершенно разумен . Это дешево, это легко, это имеет смысл. Так что, если вам нужно придерживаться этого, вы не должны чувствовать себя плохо. Просто убедитесь, что вы выбираете свои пакеты случайно. И, если вы можете просто все достоверно взвесить (как подсказка whuber и user777), то вам следует это сделать.

Причина, по которой я хочу сделать это немного сложнее, заключается в том, что у вас уже есть - вы просто не рассказали нам обо всех сложностях, а именно: счет требует времени, а время - это тоже деньги . Но как много ? Может быть, на самом деле дешевле посчитать все!

Итак, что вы на самом деле делаете, так это балансируете время, необходимое для подсчета, и сумму денег, которую вы экономите. (ЕСЛИ, конечно, вы играете в эту игру только один раз. В следующий раз, когда у вас это случится с продавцом, он, возможно, поймал и попробовал новый трюк. В теории игр, это разница между Single Shot Games и Iterated Игры. Но сейчас давайте представим, что продавец всегда будет делать то же самое.)

Еще одна вещь, прежде чем я доберусь до оценки, хотя. (И, извините, что написал так много и до сих пор не получил ответ, но тогда это довольно хороший ответ на вопрос «Что бы сделал статистик?». Они потратили бы огромное количество времени, чтобы убедиться, что понимают каждую крошечную часть проблемы. прежде чем они успели что-нибудь сказать по этому поводу.) И эта мысль основана на следующем:

(РЕДАКТИРОВАТЬ: ЕСЛИ ОНИ В НАСТОЯЩЕМ ОБОРУДОВАНИИ ...) Ваш продавец не экономит деньги, удаляя этикетки - он экономит деньги, не печатая листы. Они не могут продавать ваши этикетки кому-то еще (я полагаю). И, может быть, я не знаю, и я не знаю, если вы делаете, они не могут напечатать половину листа ваших вещей, и половину листа кого-то еще. Другими словами, прежде чем вы даже начнете считать, вы можете предположить, что общее количество меток тоже 9000, 9100, ... 9900, or 10,000. Вот как я сейчас подойду к этому.

Метод полного листа

Когда проблема немного сложнее, чем эта (дискретная и ограниченная), многие статистики будут симулировать то, что может произойти. Вот что я смоделировал:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

Это дает вам, при условии, что они используют целые листы, и ваши предположения верны, возможное распределение ваших меток (на языке программирования R).

Тогда я сделал это:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

Это находит, используя метод "начальной загрузки", доверительные интервалы, используя 4, 5, ... 20 выборок. Другими словами, в среднем, если бы вы использовали N выборок, насколько большим был бы ваш доверительный интервал? Я использую это, чтобы найти интервал, который достаточно мал, чтобы определить количество листов, и это мой ответ.

Под «достаточно малым» я подразумеваю, что мой доверительный интервал 95% содержит только одно целое число - например, если мой доверительный интервал был из [93.1, 94.7], то я бы выбрал 94 в качестве правильного числа листов, так как мы знаем это целое число.

Иная сложность - ваша уверенность зависит от правды . Если у вас 90 листов, а в каждой стопке 90 ярлыков, вы сходитесь очень быстро. То же самое с 100 листов. Итак, я посмотрел на 95 листов, где существует наибольшая неопределенность, и обнаружил, что для уверенности в 95% необходимо в среднем около 15 образцов. Итак, в общем, вы хотите взять 15 образцов, потому что никогда не знаете, что там на самом деле.

После того, как вы знаете, сколько образцов вам нужно, вы знаете, что ожидаемая экономия составляет:

$100N_{missing} - 15c$

$c$ $500 - 15*$

Но вы должны также обвинить парня за то, что он заставил вас делать всю эту работу!

(РЕДАКТИРОВАТЬ: ДОБАВЛЕНО!) Частичный листовой подход

Итак, давайте предположим, что то, что говорит производитель, является правдой, и это не преднамеренно - несколько этикеток просто теряются на каждом листе. Вы все еще хотите знать, сколько этикеток, в целом?

Эта проблема отличается тем, что у вас больше нет правильного решения, которое вы можете принять, - это было преимуществом для предположения о полном листе. Раньше было только 11 возможных ответов - сейчас их 1100, и получение 95% -ного доверительного интервала для точного количества лейблов, вероятно, будет брать гораздо больше выборок, чем вы хотите. Итак, давайте посмотрим, можем ли мы думать об этом по-другому.

Поскольку в действительности вы принимаете решение, мы по-прежнему упускаем несколько параметров - сколько денег вы готовы потерять в одной сделке и сколько стоит подсчет одного стека. Но позвольте мне настроить то, что вы могли бы сделать, с этими цифрами.

Повторяя симуляцию (хотя и поддерживает user777, если вы можете сделать это без!), Информативно смотреть на размер интервалов при использовании различного количества выборок. Это можно сделать так:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

Что предполагает (на этот раз), что каждый стек имеет равномерно случайное количество меток от 90 до 100, и дает вам:

Конечно, если бы вещи были действительно такими, как они были смоделированы, истинное среднее значение было бы около 95 выборок на стек, что ниже, чем кажется на самом деле - это один из аргументов в пользу байесовского подхода. Но это дает вам полезное ощущение того, насколько вы более уверены в своем ответе, поскольку вы продолжаете делать выборки - и теперь вы можете явно обменивать стоимость выборки на любую сделку, касающуюся ценообразования.

Который я знаю к настоящему времени, нам всем действительно интересно услышать.

one_observation
источник

6

+1 Этот анализ прямо и творчески затрагивает вопрос: как (хороший) статистик может подумать о проблеме? Сосредоточение внимания на количестве листов является ценной информацией.

whuber

1

Экономически выгодный подход - отличная идея. Я бы уже сказал, что коллективные человеческие часы, потраченные на решение этой проблемы, превысили экономию в 284 доллара США по сравнению с образцом n = 6, который использовал Нирадж. :)

RobertF

1

Хороший ответ. Как вы в данный момент закодировали, когда принтер собирает полную пачку, он просто сбрасывает лишнюю этикетку на землю, что может быть разумным. Но если вы хотите иметь 9000,9100...10000итоговые метки в конце, вы можете заменить свою логику if на, bucket <- sample(which(stacks!=100),1)а затем всегда увеличивать стек.

Адам С

1

Ах, просто заметил это сам! Спасибо за улов. Определенно ошибка.

one_observation

1

Как вы рассчитываете доверительные интервалы? Используете бутстрап?

RobertF

3

Это довольно ограниченный образец. (Фрагменты кода в R)

> sample <- c(97,98,96,100,95,97)

Для первоначального предположения об ожидаемом числе в общей численности населения и 95% -ном доверительном значении для цены мы можем начать со среднего и 5% -ного квантиля.

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525

Чтобы пойти дальше, нам нужно создать теоретическую модель и сделать дополнительные предположения. Существует несколько источников неопределенности: (1) неопределенность для функциональной формы модели заполнения пакета, (2) неопределенность в оценке параметров для модели и (3) ошибка выборки.

$p$ $n=100$ $p$

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

$n\ge100$ $np \le 10$

> (lambda <- n*p)
[1] 2.833333

$\lambda =$ lambda

> var(sample)
[1] 2.966667

$\lambda_r =$ 100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

$p$ $p$ $\alpha$ $\beta$ $\alpha$ $\beta$ $\alpha = 1$ $\beta = 0$

$\alpha^* = 1+583$ $\beta^* = 0+17$

$\alpha^*$ $\beta^*$ $\alpha$ $\beta$

Теперь, предполагая, что каждый пакет заполнен независимо, мы можем рассматривать всю коробку пакетов как 10000 независимых событий, а не 100 событий из 100 вложенных событий. Таким образом, среднее значение составляет 9717,138 со стандартным отклонением 69,57153. Используя функцию распределения, вы можете вычислить 95% -ое доверительное число, чтобы оно было около 9593. Я использовал пакет R VGAMдля его *betabinom.abфункций.

Таким образом, неопределенность в оценочном параметре снижает 95% -ную доверительную цену почти на 100, и мы в конечном итоге довольно близки к нашему первоначальному простому приближению.

Независимо от подхода или модели, дополнительные данные могут использоваться для проверки модели, то есть, чтобы увидеть, что дополнительные данные являются обоснованными с точки зрения теоретической модели, или необходимы ли корректировки или новая модель. Процесс моделирования похож на научный метод.

А. Вебб
источник

2

В крайнем случае, я бы хотел рассчитать 95% доверительный интервал для вашего среднего значения по усеченному нормальному распределению, попадающему между нижней и верхней границами 90 и 100 меток.

Пакет R truncnormпозволяет найти доверительные интервалы для усеченного нормального распределения с учетом указанного среднего значения выборки, стандартного отклонения выборки, нижней границы и верхней границы.

Поскольку вы берете выборку с n = 5 из сравнительно небольшой совокупности (N = 100), вы можете умножить стандартное отклонение выборки на коэффициент конечной совокупности = [(Nn) / (N-1)] ^. 5 = 0,98.

RobertF
источник

5

Интересно, имеют ли смысл дополнительные осложнения, связанные с предположением об укороченном нормальном значении (или даже допустимы), учитывая, что значения являются дискретными и могут принимать только небольшое количество возможных значений.

whuber

@whuber - Да, но доверительный интервал находится над распределением среднего значения выборки, которое является непрерывной величиной. Вместо того, чтобы использовать 95% доверительный интервал, возможно, лучшим выбором будет найти область под распределением между дискретными величинами, скажем, 93 и 99.

RobertF

Тем не менее, вам не нужен усеченный Normal для работы с образцом среднего. Это выглядит как ненужное осложнение.

whuber

1

CLT не утверждает, что что-либо будет следовать усеченному нормальному распределению. Начальная загрузка, вероятно, будет проблематичной, потому что для ее достоверности она использует асимптотические результаты.

whuber

1

Поскольку стандартное отклонение среднего значения быстро становится намного меньше, чем диапазон, усечение практически не имеет значения. Мы говорим о практическом решении, которое не слишком усложняется ненужными и, возможно, отвлекающими деталями.

whuber

2

Быстрый и простой подход заключается в рассмотрении всех возможных повторных выборок размера 6. Всего существует 15 625 перестановок. Глядя на них и принимая среднее для каждого случая, а затем сортируя средние значения и извлекая 5% квантиль, мы получаем значение 96.

Таким образом, предполагаемая сумма, которую вы должны быть готовы заплатить, составляет около 9600. Это хорошо согласуется с парой более сложных подходов.

В этом случае было бы лучше моделировать большое количество выборок размером 6 и использовать ту же процедуру, чтобы найти 5-й процентиль средних значений выборки. Используя чуть более миллиона повторных выборок, я обнаружил, что 5-й процентиль равен 96,1667, поэтому к ближайшему доллару выплата составит 9617 долларов, что всего лишь на 2 доллара по сравнению с результатом user777 в 9615.

soakley
источник

1

Не могли бы вы объяснить, почему это подходящий ответ, сколько нужно заплатить? Например, почему бы не использовать среднее значение выборки?

whuber

Вы могли бы использовать примерное среднее значение, если хотите получить платеж, соответствующий тому, сколько ярлыков вы считаете. Но спрашивающий попросил 95% гарантии, что он не заплатит за большее количество этикеток, чем было сделано. Таким образом, мы получаем представление о распределении среднего значения выборки для образцов размера 6 и используем 5-й процентиль.

Soakley

1

Было бы хорошо включить это объяснение в ваш ответ. Вы могли бы также объяснить, почему вы думаете, что эта процедура повторной выборки фактически дает действительный или надежный предел достоверности. Хотя это может быть сделано со многими большими наборами данных, следует подумать о том, можно ли использовать его таким же образом с таким маленьким набором данных.

whuber

0

Похоже, вы уже пришли к выводу, что ошибка была совершена намеренно, но статистика не спешит с такими выводами (даже если доказательства подтверждают это).

Можно установить это как проверку гипотезы:

H0: Дилер честный, но довольно неряшливый

H1: Дилер мошеннический, а нехватка преднамеренная.

Предположим, что H0, тогда каждое отклонение является случайным событием со средним значением = 0 и равным шансом быть положительным или отрицательным. Далее предположим, что отклонения нормально распределены. Стандартное отклонение для нормального распределения, основанного на отклонениях в 6 точках данных, равно sd = 1,722

Если статистик не очень хорошо помнил свою теорию, но имел рядом R (не маловероятный сценарий), то он / она мог бы написать следующий код, чтобы проверить вероятность получения никаких положительных отклонений (нет пакетов более 100), если H0 правда.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

Результат моделирования:

The probability the H0 is correct is: 5.3471 %

Вероятность того, что дилер будет честным, составляет всего 5,35%, и поэтому вполне вероятно, что вы стали жертвой мошенничества.

Поскольку вы говорите, что это не домашнее задание, а реальная ситуация для вашей компании, тогда это перестает быть упражнением в расчете меток правильного ожидаемого числа, но вместо этого это сложный случай, как обращаться с нечестным поставщиком.

То, что вы делаете отсюда, на самом деле не может быть ответа только по статистике. Это очень сильно зависит от вашего плеча и отношений с дилером.

Удачи !

Мортен Бунес Густавсен

Мортен Бунес Густавсен
источник

1

17 / 6

$17/6$

1.72 / \sqrt{6} \approx 0.70

$1.72/\sqrt{6}\approx 0.70$

17 / 6 / 0.70 \approx 4.0

$17/6/0.70 \approx 4.0$

100

$100$

0.00003

$0.00003$

ошибка всегда есть вариант, поэтому я мог ошибиться ... однако мои расчеты документированы в коде R, который я предоставил, поэтому не должно быть никаких причин удивляться, как я получил свой результат. Да, гипотеза H0 в моем случае заключается в том, что дилер честен, и тогда отклонения будут случайными колебаниями со средним значением 100. Stdev в моем расчете - это просто Stdev серии (-3, -2, -4, 0, -5, -3) что является отклонением от 100 в каждой упаковке.

Мортен Бунс Густавсен

Я просто использую это нормальное отклонение и рисую 6 образцов и проверяю, не превышают ли они ни одного из 0. Я запускаю симуляцию 1000 000 раз и пытаюсь понять, сколько раз мне не повезло, чтобы образец не был выше 0. Это оказывается 5,35% случаев. Причина, по которой я выбрал этот ракурс, заключалась в том, что в вопросе прямо указывалось, что это реальная ситуация (т.е. не академическое упражнение), и что он / она хотел бы знать, что статистик будет делать в этом случае.

Мортен Бунс Густавсен

3

В вопросе также говорилось, что нет шансов подсчитать более 100 ярлыков в пакете. Независимо от того, что вы сделали, это обширную симуляцию чисел, которая выглядит как данные - но что, если что-то, это имеет отношение к вопросу («сколько мы должны заплатить»), неясно.

whuber

-2

Как насчет чего-то вроде полиномиальной модели.

Вероятность каждого исхода оценивается как 1/6, 1/6, .... (на основе 6 наблюдений), поэтому E (x) = 97,16 и Var (x) = сумма (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2,47, поэтому 95% -й CI будет [94, 100]

Xing
источник

3

Это не похоже на полиномиальность: ваш КИ, похоже, представляет собой интервал Нормальной теории, использующий нескорректированную формулу для дисперсии. Кроме того, как он отвечает на вопрос о том, сколько платить?

whuber

мультиномиал применяется к результату, то есть 95, 96, 97 ... 100, и да, CI - это Нормальная теория, потому что xe (x) / sd ~ N, сколько заплатить, будет таким же, как ожидание, поэтому оно составляет 97,16. * 100

Син

4

Вы заметили, что вы не используете многочленное предположение вообще? Ваш CI слишком короткий, как наблюдал WS Gosset в 1908 году. Но если вы собираетесь основывать свою рекомендацию только на среднем значении выборки, зачем вычислять CI?

whuber

Сколько заплатить? Практическая проблема

Ответы:

Байесовская модель

Как правильно оценить цену лота?

Сравнение с бутстрапом