Это не вопрос домашнего труда, а реальная проблема, с которой сталкивается наша компания.
Совсем недавно (2 дня назад) мы заказали у дилера 10000 этикеток. Дилер - независимый человек. Он получает этикетки, изготовленные извне, и компания производит оплату дилеру. Каждый лейбл стоил компании ровно 1 доллар.
Вчера дилер пришел с этикетками, но этикетки были упакованы в пакет из 100 этикеток каждая. Таким образом, было всего 100 пакетов, и каждый пакет содержал 100 меток, таким образом, всего 10000 меток. Перед тем, как произвести оплату дилеру в размере 10000 долларов, мы решили подсчитать несколько пакетов, чтобы каждый пакет точно содержал 100 ярлыков. Когда мы посчитали этикетки, мы обнаружили, что в пакете не было 100 этикеток (мы нашли 97 этикеток). Чтобы убедиться, что это не случайно, а сделано намеренно, мы посчитали еще 5 пакетов и обнаружили следующее количество меток в каждом пакете (включая первый пакет):
Packet Number Number of labels
1 97
2 98
3 96
4 100
5 95
6 97
Было невозможно сосчитать каждый пакет, поэтому мы решили произвести оплату в среднем. Таким образом, среднее количество этикеток в шести пакетах составляет 97,166, поэтому общая сумма оплаты составила 9716 долларов.
Я просто хочу знать, как статистика должна иметь дело с такой проблемой .
Кроме того, я хочу знать, сколько мы должны заплатить, чтобы получить 95% уверенности, что мы не заплатили больше, чем фактическое количество целых лейблов.
Дополнительная информация:
P (любой пакет содержал более 100 меток) = 0
P (любой пакет содержал метки менее 90) = 0 {метки менее 90 будут легко обнаружены при подсчете пакетов, поскольку пакет будет иметь меньший вес}
РЕДАКТИРОВАТЬ: Дилер просто отрицал такую халатность. Мы обнаружили, что эти дилерские работы выполняются с определенной комиссией, которую они получают от производителя за то, что платит компания. Когда мы связались напрямую с производителем, мы обнаружили, что это не ошибка производителя или дилера. Производитель сказал: «Этикетки становятся короткими, потому что листы не стандартизированы по размеру , и независимо от того, какое число вырезают из одного листа, они объединяют их в пачку».
Кроме того, мы проверяем наше первое утверждение, приведенное в дополнительной информации, поскольку производитель признал, что из-за незначительного увеличения размера листа невозможно вырезать дополнительные этикетки, а также из-за предельного уменьшения размера листа невозможно вырезать 100 этикеток одинакового размера.
Ответы:
Мне было бы интересно получить отзывы о начале абзаца «После размышления ...», поскольку определенная часть модели не давала мне спать по ночам.
Байесовская модель
Пересмотренный вопрос заставляет меня думать, что мы можем разработать модель явно, без использования моделирования. Моделирование внесло дополнительную изменчивость из-за присущей случайности выборки. Ответ софологов велик, хотя.
Допущения : наименьшее количество этикеток на конверт составляет 90, а самое большое - 100.
Поэтому наименьшее возможное количество меток составляет 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (согласно данным OP), 9000 - из-за нашей нижней границы, а дополнительные метки - из наблюдаемых данных.
Обозначим количество этикеток в конверте . Обозначим количество меток свыше 90, т.е. , поэтому . В биномиальное распределение моделей общее число успехов (здесь успех является присутствие метки в конверте) в испытаниях , когда испытания независимы с постоянной вероятностью успеха так принимает значенияМы берем , что дает 11 различных возможных результатов. Я предполагаю, что, поскольку размеры листов нерегулярны, на некоторых листах есть место только для яYя i Xi X=Y−90 X∈{0,1,2,...,10} n p X 0,1,2,3,...,n. n=10 X дополнительные метки, превышающие 90, и что это «дополнительное пространство» для каждой метки, превышающей 90, возникает независимо с вероятностью . Итак,p Xi∼Binomial(10,p).
(Если подумать, предположение о независимости / биномиальная модель, вероятно, является странным предположением, поскольку оно эффективно фиксирует компоновку листов принтера как унимодальную, и данные могут только изменять местоположение режима, но модель никогда не допустит мультимодальный дистрибутив. Например, при альтернативной модели возможно, что принтер толькоимеет листы размеров 97, 98, 96, 100 и 95: это удовлетворяет всем заявленным ограничениям, и данные не исключают эту возможность. Возможно, более уместно рассматривать каждый размер листа как свою собственную категорию, а затем подгонять к данным модель многочлена Дирихле. Я не делаю этого здесь, потому что данных очень мало, поэтому последующие вероятности по каждой из 11 категорий будут очень сильно зависеть от предыдущих. С другой стороны, подгоняя более простую модель, мы также сужаем виды умозаключений, которые мы можем сделать.)
Каждый конверт это н.о.р. реализация . Сумма биномиальных испытаний с одинаковой вероятностью успеха также является биномиальной, поэтому(Это теорема - для проверки используйте теорему единственности MGF.)i X p ∑iXi∼Binomial(60,p).
Я предпочитаю думать об этих проблемах в байесовском режиме, потому что вы можете делать прямые вероятностные заявления о апостериорных количествах интереса. Типичным предшествующим для биномиальных испытаний с неизвестным является бета-распределение , которое является очень гибким (варьируется от 0 до 1, может быть симметричным или асимметричным в любом направлении, однородным или одной из двух масс Дирака, иметь антимод или режим). Это удивительный инструмент!) При отсутствии данных представляется разумным предполагать равномерную вероятность по . То есть можно ожидать, что лист вмещает 90 меток, а не 91, а 92, ..., 100 и 100. Таким образом, наш предшествующий код -p p p∼Beta(1,1). Если вы не думаете, что эта предварительная бета-версия является разумной, универсальная предварительная версия может быть заменена другой предварительной бета-версией, и математика даже не увеличится в сложности!
Апостериорное распределение на является свойствами сопряженности этой модели. Это только промежуточный шаг, потому что мы не заботимся о так же сильно, как об общем количестве меток. К счастью, свойства сопряженности также означают, что апостериорное распределение листов является бета-биномиальным , с параметрами бета-апостериорного. Существует повторных «испытаний», т. Е. Ярлыков, для которых их присутствие в доставке является неопределенным, поэтому нашей оставшейся моделью на оставшихся ярлыках являетсяp p∼Beta(1+43,1+17) p 940 Z Z∼BB(44,18,940).
Поскольку у нас есть распределение по и модель стоимости на этикетку (поставщик согласился на один доллар за этикетку), мы также можем вывести распределение вероятностей по стоимости лота. Обозначим общую долларовую стоимость лота. Мы знаем, что , потому что моделирует только те метки, в которых мы не уверены. Таким образом, распределение по стоимости дается .Z D D=9043+Z Z D
Как правильно оценить цену лота?
Мы можем обнаружить, что квантили на 0,025 и 0,975 (95% интервал) составляют 553 и 769, соответственно. Таким образом, интервал 95% на D равен . Ваш платеж попадает в этот интервал. (Распределение на не совсем симметрично, так что это не центральный 95% интервал - однако асимметрия незначительна. В любом случае, как я укажу ниже, я не уверен, что центральный 95% интервал является даже правильным один рассмотреть!)D[9596,9812] D
Мне не известна квантильная функция для бета-биномиального распределения в R, поэтому я написал свою собственную, используя поиск корня R.
Другой способ думать об этом - просто думать об ожидании. Если бы вы повторили этот процесс много раз, какую среднюю стоимость вы бы заплатили? Мы можем вычислить ожидание напрямую. У бета-биномиальной модели есть ожидание , поэтому почти столько же, сколько вы заплатили. Ваша ожидаемая потеря по сделке составила всего 6 долларов! Все сказано, молодец!E ( D ) = E ( 9043 + Z ) = E ( Z ) + 9043. E ( Z ) = n αD E(D)=E(9043+Z)=E(Z)+9043. E(D)=9710,097,E(Z)=nαα+β=667.0968 E(D)=9710.097,
Но я не уверен, что любая из этих цифр является наиболее актуальной. В конце концов, этот продавец пытается обмануть вас! Если бы я заключал эту сделку, я бы перестал беспокоиться о безубыточности или справедливой стоимости лота и начал бы определять вероятность того, что я переплачиваю! Продавец явно пытается обмануть меня, поэтому я вполне могу минимизировать свои потери и не беспокоиться о точке безубыточности. В этой ситуации самая высокая цена, которую я бы предложил, составляет 9615 долларов, потому что это 5% квантиля апостериорного на , то есть есть вероятность 95%, что я недоплачиваюD . Продавец не может доказать мне, что все этикетки есть, поэтому я собираюсь хеджировать свои ставки.
(Конечно, тот факт, что продавец согласился на сделку, говорит нам о том, что у него есть неотрицательный реальный убыток ... Я не нашел способа использовать эту информацию, чтобы помочь нам более точно определить, сколько вас обманули, за исключением примечания что, поскольку он принял предложение, вы в лучшем случае были безубыточны.)
Сравнение с бутстрапом
У нас есть только 6 наблюдений для работы. Обоснование начальной загрузки является асимптотическим, поэтому давайте рассмотрим, как будут выглядеть результаты на нашей небольшой выборке. Этот график показывает плотность моделирования Boostrap.
«Ухабистый» рисунок - это артефакт небольшого размера выборки. Включение или исключение какой-либо одной точки будет иметь драматический эффект, создавая этот «групповой» внешний вид. Байесовский подход сглаживает эти скопления и, на мой взгляд, является более правдоподобным портретом происходящего. Вертикальные линии - это 5% квантилей.
источник
РЕДАКТИРОВАТЬ: Трагедия! Мои первоначальные предположения были неверны! (Или, по крайней мере, сомневаетесь - доверяете ли вы тому, что говорит вам продавец? Тем не менее, также, как и Мортену). Что, я думаю, является еще одним хорошим введением в статистику, но теперь добавлен частичный подход к листам ( так как людям, похоже, нравится весь лист, и, возможно, кто-то все равно найдет это полезным).
Прежде всего, большая проблема. Но я хотел бы сделать это немного сложнее.
Поэтому, прежде чем я это сделаю, позвольте мне сделать это немного проще и сказать - метод, который вы используете прямо сейчас, совершенно разумен . Это дешево, это легко, это имеет смысл. Так что, если вам нужно придерживаться этого, вы не должны чувствовать себя плохо. Просто убедитесь, что вы выбираете свои пакеты случайно. И, если вы можете просто все достоверно взвесить (как подсказка whuber и user777), то вам следует это сделать.
Причина, по которой я хочу сделать это немного сложнее, заключается в том, что у вас уже есть - вы просто не рассказали нам обо всех сложностях, а именно: счет требует времени, а время - это тоже деньги . Но как много ? Может быть, на самом деле дешевле посчитать все!
Итак, что вы на самом деле делаете, так это балансируете время, необходимое для подсчета, и сумму денег, которую вы экономите. (ЕСЛИ, конечно, вы играете в эту игру только один раз. В следующий раз, когда у вас это случится с продавцом, он, возможно, поймал и попробовал новый трюк. В теории игр, это разница между Single Shot Games и Iterated Игры. Но сейчас давайте представим, что продавец всегда будет делать то же самое.)
Еще одна вещь, прежде чем я доберусь до оценки, хотя. (И, извините, что написал так много и до сих пор не получил ответ, но тогда это довольно хороший ответ на вопрос «Что бы сделал статистик?». Они потратили бы огромное количество времени, чтобы убедиться, что понимают каждую крошечную часть проблемы. прежде чем они успели что-нибудь сказать по этому поводу.) И эта мысль основана на следующем:
(РЕДАКТИРОВАТЬ: ЕСЛИ ОНИ В НАСТОЯЩЕМ ОБОРУДОВАНИИ ...) Ваш продавец не экономит деньги, удаляя этикетки - он экономит деньги, не печатая листы. Они не могут продавать ваши этикетки кому-то еще (я полагаю). И, может быть, я не знаю, и я не знаю, если вы делаете, они не могут напечатать половину листа ваших вещей, и половину листа кого-то еще. Другими словами, прежде чем вы даже начнете считать, вы можете предположить, что общее количество меток тоже
9000, 9100, ... 9900, or 10,000
. Вот как я сейчас подойду к этому.Метод полного листа
Когда проблема немного сложнее, чем эта (дискретная и ограниченная), многие статистики будут симулировать то, что может произойти. Вот что я смоделировал:
Это дает вам, при условии, что они используют целые листы, и ваши предположения верны, возможное распределение ваших меток (на языке программирования R).
Тогда я сделал это:
Это находит, используя метод "начальной загрузки", доверительные интервалы, используя 4, 5, ... 20 выборок. Другими словами, в среднем, если бы вы использовали N выборок, насколько большим был бы ваш доверительный интервал? Я использую это, чтобы найти интервал, который достаточно мал, чтобы определить количество листов, и это мой ответ.
Под «достаточно малым» я подразумеваю, что мой доверительный интервал 95% содержит только одно целое число - например, если мой доверительный интервал был из [93.1, 94.7], то я бы выбрал 94 в качестве правильного числа листов, так как мы знаем это целое число.
Иная сложность - ваша уверенность зависит от правды . Если у вас 90 листов, а в каждой стопке 90 ярлыков, вы сходитесь очень быстро. То же самое с 100 листов. Итак, я посмотрел на 95 листов, где существует наибольшая неопределенность, и обнаружил, что для уверенности в 95% необходимо в среднем около 15 образцов. Итак, в общем, вы хотите взять 15 образцов, потому что никогда не знаете, что там на самом деле.
После того, как вы знаете, сколько образцов вам нужно, вы знаете, что ожидаемая экономия составляет:
Но вы должны также обвинить парня за то, что он заставил вас делать всю эту работу!
(РЕДАКТИРОВАТЬ: ДОБАВЛЕНО!) Частичный листовой подход
Итак, давайте предположим, что то, что говорит производитель, является правдой, и это не преднамеренно - несколько этикеток просто теряются на каждом листе. Вы все еще хотите знать, сколько этикеток, в целом?
Эта проблема отличается тем, что у вас больше нет правильного решения, которое вы можете принять, - это было преимуществом для предположения о полном листе. Раньше было только 11 возможных ответов - сейчас их 1100, и получение 95% -ного доверительного интервала для точного количества лейблов, вероятно, будет брать гораздо больше выборок, чем вы хотите. Итак, давайте посмотрим, можем ли мы думать об этом по-другому.
Поскольку в действительности вы принимаете решение, мы по-прежнему упускаем несколько параметров - сколько денег вы готовы потерять в одной сделке и сколько стоит подсчет одного стека. Но позвольте мне настроить то, что вы могли бы сделать, с этими цифрами.
Повторяя симуляцию (хотя и поддерживает user777, если вы можете сделать это без!), Информативно смотреть на размер интервалов при использовании различного количества выборок. Это можно сделать так:
Что предполагает (на этот раз), что каждый стек имеет равномерно случайное количество меток от 90 до 100, и дает вам:
Конечно, если бы вещи были действительно такими, как они были смоделированы, истинное среднее значение было бы около 95 выборок на стек, что ниже, чем кажется на самом деле - это один из аргументов в пользу байесовского подхода. Но это дает вам полезное ощущение того, насколько вы более уверены в своем ответе, поскольку вы продолжаете делать выборки - и теперь вы можете явно обменивать стоимость выборки на любую сделку, касающуюся ценообразования.
Который я знаю к настоящему времени, нам всем действительно интересно услышать.
источник
9000,9100...10000
итоговые метки в конце, вы можете заменить свою логику if на,bucket <- sample(which(stacks!=100),1)
а затем всегда увеличивать стек.Это довольно ограниченный образец. (Фрагменты кода в R)
Для первоначального предположения об ожидаемом числе в общей численности населения и 95% -ном доверительном значении для цены мы можем начать со среднего и 5% -ного квантиля.
Чтобы пойти дальше, нам нужно создать теоретическую модель и сделать дополнительные предположения. Существует несколько источников неопределенности: (1) неопределенность для функциональной формы модели заполнения пакета, (2) неопределенность в оценке параметров для модели и (3) ошибка выборки.
lambda
100*lambda
Теперь, предполагая, что каждый пакет заполнен независимо, мы можем рассматривать всю коробку пакетов как 10000 независимых событий, а не 100 событий из 100 вложенных событий. Таким образом, среднее значение составляет 9717,138 со стандартным отклонением 69,57153. Используя функцию распределения, вы можете вычислить 95% -ое доверительное число, чтобы оно было около 9593. Я использовал пакет R
VGAM
для его*betabinom.ab
функций.Таким образом, неопределенность в оценочном параметре снижает 95% -ную доверительную цену почти на 100, и мы в конечном итоге довольно близки к нашему первоначальному простому приближению.
Независимо от подхода или модели, дополнительные данные могут использоваться для проверки модели, то есть, чтобы увидеть, что дополнительные данные являются обоснованными с точки зрения теоретической модели, или необходимы ли корректировки или новая модель. Процесс моделирования похож на научный метод.
источник
В крайнем случае, я бы хотел рассчитать 95% доверительный интервал для вашего среднего значения по усеченному нормальному распределению, попадающему между нижней и верхней границами 90 и 100 меток.
Пакет R
truncnorm
позволяет найти доверительные интервалы для усеченного нормального распределения с учетом указанного среднего значения выборки, стандартного отклонения выборки, нижней границы и верхней границы.Поскольку вы берете выборку с n = 5 из сравнительно небольшой совокупности (N = 100), вы можете умножить стандартное отклонение выборки на коэффициент конечной совокупности = [(Nn) / (N-1)] ^. 5 = 0,98.
источник
Быстрый и простой подход заключается в рассмотрении всех возможных повторных выборок размера 6. Всего существует 15 625 перестановок. Глядя на них и принимая среднее для каждого случая, а затем сортируя средние значения и извлекая 5% квантиль, мы получаем значение 96.
Таким образом, предполагаемая сумма, которую вы должны быть готовы заплатить, составляет около 9600. Это хорошо согласуется с парой более сложных подходов.
В этом случае было бы лучше моделировать большое количество выборок размером 6 и использовать ту же процедуру, чтобы найти 5-й процентиль средних значений выборки. Используя чуть более миллиона повторных выборок, я обнаружил, что 5-й процентиль равен 96,1667, поэтому к ближайшему доллару выплата составит 9617 долларов, что всего лишь на 2 доллара по сравнению с результатом user777 в 9615.
источник
Похоже, вы уже пришли к выводу, что ошибка была совершена намеренно, но статистика не спешит с такими выводами (даже если доказательства подтверждают это).
Можно установить это как проверку гипотезы:
H0: Дилер честный, но довольно неряшливый
H1: Дилер мошеннический, а нехватка преднамеренная.
Предположим, что H0, тогда каждое отклонение является случайным событием со средним значением = 0 и равным шансом быть положительным или отрицательным. Далее предположим, что отклонения нормально распределены. Стандартное отклонение для нормального распределения, основанного на отклонениях в 6 точках данных, равно sd = 1,722
Если статистик не очень хорошо помнил свою теорию, но имел рядом R (не маловероятный сценарий), то он / она мог бы написать следующий код, чтобы проверить вероятность получения никаких положительных отклонений (нет пакетов более 100), если H0 правда.
Результат моделирования:
Вероятность того, что дилер будет честным, составляет всего 5,35%, и поэтому вполне вероятно, что вы стали жертвой мошенничества.
Поскольку вы говорите, что это не домашнее задание, а реальная ситуация для вашей компании, тогда это перестает быть упражнением в расчете меток правильного ожидаемого числа, но вместо этого это сложный случай, как обращаться с нечестным поставщиком.
То, что вы делаете отсюда, на самом деле не может быть ответа только по статистике. Это очень сильно зависит от вашего плеча и отношений с дилером.
Удачи !
Мортен Бунес Густавсен
источник
Как насчет чего-то вроде полиномиальной модели.
Вероятность каждого исхода оценивается как 1/6, 1/6, .... (на основе 6 наблюдений), поэтому E (x) = 97,16 и Var (x) = сумма (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2,47, поэтому 95% -й CI будет [94, 100]
источник