Почему байесовская статистика не более популярна для статистического контроля процессов?

18

Мое понимание байесовской и частой дискуссии состоит в том, что статистика для частых:

  • является (или претендует на то, чтобы быть) объективным
  • или, по крайней мере, непредвзято
  • поэтому разные исследователи, используя разные допущения, могут все же получить количественно сопоставимые результаты

пока байесовская статистика

  • утверждает, что делает «лучшие» прогнозы (т.е. снижает ожидаемые потери), потому что он может использовать предыдущие знания (среди других причин)
  • требуется меньше «специальных решений», заменив их предыдущими / модельными вариантами, которые (по крайней мере, в принципе) имеют реальную интерпретацию.

Учитывая это, я ожидал бы, что байесовская статистика будет очень популярна в SPC: если бы я был владельцем фабрики, пытавшимся контролировать качество своих процессов, я бы в первую очередь заботился об ожидаемых потерях; Если бы я мог уменьшить это, потому что у меня больше / лучше, чем у моих конкурентов, даже лучше.

Но практически все, что я читал о SPC, похоже, часто встречается (то есть, никаких предварительных распределений, точечных оценок всех параметров, множества специальных вариантов размера выборки, p-значений и т. Д.)

Это почему? Я могу понять, почему статистика по частым исследованиям была лучшим выбором в 1960-х годах, когда SPC делали с помощью ручки и бумаги. Но почему никто не пробовал другие методы с тех пор?

nikie
источник
2
Я считаю байесовскую статистику моей цифровой SLP-камерой, в то время как частую как камеру iPhone. Я купил оба из них когда-то, но я использую DSLR меньше 5% фотографий, в то время как телефон отдыхает 95%. Потому что это легко, удобно и в кармане, и много времени обеспечивает в соответствии с качеством (на основании моих навыков DSLR). Точно так же, как при включении приоров и ходовых цепей в сено, мне нужно найти оптимальный баланс продолжительности открытия отверстия, длины и других параметров. Iphone конец популярного.
Рам Шарма
@RamSharma вы должны опубликовать это как ответ! Мне нравится это лучше, чем аналогия с ножом для шеф-повара.
Shadowtalker

Ответы:

18

ПРЕДУПРЕЖДЕНИЕ. Я написал этот ответ давным-давно, очень мало понимая, о чем я говорю. Я не могу удалить это, потому что это было принято, но я не могу поддержать большую часть содержания.


Это очень длинный ответ, и я надеюсь, что он будет в некотором роде полезным. SPC - не моя сфера деятельности, но я думаю, что эти комментарии достаточно общие, чтобы применить их здесь.

Я бы сказал, что наиболее часто упоминаемое преимущество - способность учитывать предыдущие убеждения - это слабое преимущество прикладных / эмпирических областей. Это потому, что вам нужно определить количество ваших предшественников. Даже если я могу сказать «ну, уровень z определенно неправдоподобен», я не могу на всю жизнь сказать вам, что должно происходить ниже z. Если авторы не начнут публиковать свои необработанные данные в массовом порядке, мои лучшие догадки для приоры - это условные моменты, взятые из предыдущей работы, которые могут соответствовать или не соответствовать условиям, с которыми вы сталкиваетесь.

По сути, байесовские методы (по крайней мере, на концептуальном уровне) отлично подходят для тех случаев, когда у вас есть сильное предположение / идея / модель и вы хотите перенести их в данные, а затем посмотреть, насколько вы ошибаетесь или не ошибаетесь. Но часто вы не смотрите, правы ли вы в отношении одной конкретной модели для вашего бизнес-процесса; скорее у тебя нетмодель, и посмотреть, что будет делать ваш процесс. Вы не хотите выдвигать свои выводы, вы хотите, чтобы ваши данные подталкивали ваши выводы. Если у вас достаточно данных, это все равно произойдет, но в таком случае зачем беспокоиться о предыдущих? Возможно, это слишком скептически и не склонно к риску, но я никогда не слышал о оптимистичном бизнесмене, который также был успешным. Невозможно измерить вашу неуверенность в своих собственных убеждениях, и вы не рискуете быть слишком уверенным в своих ошибках. Таким образом, вы устанавливаете неинформативный априор, и преимущество исчезает.

Это интересно в случае с SPC, потому что, в отличие, скажем, от цифрового маркетинга, ваши бизнес-процессы не всегда находятся в непредсказуемом состоянии. У меня сложилось впечатление, что бизнес-процессы имеют тенденцию меняться намеренно и постепенно. То есть вам нужно долго строить хорошие, безопасные приоры. Но помните, что все приоры направлены на распространение неопределенности. Помимо субъективности, байесианство имеет то преимущество, что оно объективно распространяет неопределенность в процессах создания глубоко вложенных данных. Для меня это действительно то, для чего нужна байесовская статистика. И если вы ищете надежность своего процесса, выходящую далеко за пределы «значимости» 1 к 20, кажется, что вы захотите учесть как можно большую неопределенность.

Так где же байесовские модели? Во-первых, они сложно реализовать, Говоря прямо, я могу научить OLS инженеру-механику за 15 минут и заставить его запустить регрессии и t-тесты в Matlab в другой 5. Чтобы использовать байесовский метод, мне сначала нужно решить, какую модель мне подходит, а затем посмотреть, есть ли готовая библиотека для этого на языке, который знает кто-то в моей компании. Если нет, я должен использовать ошибки или Стэн. А потом мне нужно запустить симуляции, чтобы получить хотя бы базовый ответ, и это займет около 15 минут на 8-ядерном компьютере с i7. Так много для быстрого прототипирования. И во-вторых, к тому времени, как вы получите ответ, вы потратили два часа на кодирование и ожидание, только чтобы получить тот же результат, который вы могли бы получить с частыми случайными эффектами с кластерными стандартными ошибками. Может быть, это все самонадеянно и неправильно, и я совсем не понимаю SPC.

Я сравниваю байесианство с очень качественным ножом шеф-повара, кастрюлей и сотейником ; Частота - это как кухня, полная инструментов «как видно по телевизору», таких как банановые нарезки и кастрюли с отверстиями в крышке для легкого слива . Если вы опытный повар с большим опытом работы на кухне - на самом деле, на своей собственной кухне с предметными знаниями, которая чиста и организована, и вы знаете, где все расположено - вы можете делать удивительные вещи с помощью своего небольшого выбора элегантные, качественные инструменты. Или, вы можете использовать кучу разных маленьких специальных инструментов *, которые требуют нулевого навыка, чтобы сделать еду простой, действительно не наполовину плохой, и с парой базовых ароматов, которые отражают суть. Вы только что вернулись из шахт данных и жаждете результатов; какой повар ты?

* Байес такой же случайный, но менее прозрачный . Сколько вина идет в твоей компании? Понятия не имею, тебе это нравится, потому что ты профессионал. Или вы не можете определить разницу между Пино Гриджио и Пино Нуар, но в первом рецепте Epicurious сказано, что нужно использовать 2 чашки красного, так что вы это и сделаете. Какой из них более "ad-hoc"?

shadowtalker
источник
1
+1, отличный ответ. Мне интересно: не могли бы вы добавить параграф о небольших / адаптивных размерах выборки? В SPC размеры выборки 3-5 кажутся общими. И если программное обеспечение SPC могло бы сообщить технику после 2 образцов, действительно ли ему нужно еще 3 образца или нет, это было бы отличной возможностью. С байесовской моделью это почти просто: определите стоимость измерений, ложных срабатываний и отрицательных значений, а затем оцените ожидаемую стоимость проведения другого измерения вместо остановки. В статистике частых случаев вы должны иметь дело со странными эффектами остановки правил (можете ли вы научить их ME за 15 минут?)
nikie
1
Что касается размера выборки, проблема, и я бы упомянул об этом, если бы знал, что выборки были такими маленькими, заключается в том, что при очень небольшом количестве наблюдений ваши оценки будут очень чувствительны к вашему выбору. Вы не можете получить кровь из камня, так что это компромисс: либо вы чрезмерно переоцениваете себя с оценщиком частоты, но делаете это с небольшими допущениями, либо вы включаете свои собственные знания (или их отсутствие) в достаточно расплывчатый предварительный и в основном подходят как для данных, которые у вас есть перед вами, так и для «данных», которые у вас в голове. Вам разрешено иметь форму в голове.
Shadowtalker
1
По сути, Байес налагает на аналитика большую нагрузку на использование своего мозга с самого начала. Лично я считаю, что отказ от идеи устанавливать приоры является признаком того, что вы либо а) слишком ленивы, либо б) не очень понимаете, как работает статистика (нужно знать одного и т. Д.). Я сказал, что было трудно определить количество приоров в моем ответе; Я на самом деле не согласен с этим на практике. Одна вещь, которую вы всегда можете сделать, это нарисовать кривую на странице и спросить себя: «Могу ли я ожидать, что мои данные будут выглядеть так?» Если нет, начните изменять кривую. И если вы не можете решить, где придерживаться режима, используйте гиперприор.
Shadowtalker
2
Один вопрос (не предназначенный для того, чтобы быть глупым): вы знаете, что есть литература (количественно), требующая предварительных убеждений, верно? Включая опубликованные убеждения, опрошенные экспертные и неэкспертные убеждения и убеждения в себе. Причина, по которой я спрашиваю, состоит в том, что я слышал эту жалобу раньше, но авторы таких жалоб считали, что их возражение было концом обсуждения, а не началом расследования.
Алексис
1
@CliffAB Интересно ... Я не читал эту литературу глубоко (Бернардо, Каас, Гартвейт ... несколько десятилетий назад) ... но это науку, основанную на ценностях, для вас: различные предшествующие убеждения сообщают, предпочитают ли вы методы частых или байесовских методов. ;)
Алексис
5

По моему скромному мнению, байесовская статистика страдает некоторыми недостатками, которые противоречат ее широкому использованию (в SPC, но и в других исследовательских секторах):

  1. Труднее получить оценки по сравнению с его частыми коллегами (самая широкая часть классов по статистике использует частичный подход. Кстати, было бы интересно выяснить, является ли это причиной или следствием ограниченной популярности байесовской статистики ).

  2. Очень часто Байесовская статистика навязывает выбор различных способов решения одной и той же проблемы (например, какой из них лучше предшествует?), А не просто щелкни и посмотри (во всяком случае, этот подход также не следует поощрять в рамках системы часто встречающихся).

  3. Байесовская статистика имеет некоторые темы, которыми трудно управлять менее чем опытным статистикам (например, неправильным априорам );

  4. Это требует анализа чувствительности (обычно избегаемого в рамках системы часто встречающихся) и исключений, сделанных для некоторых тем, таких как анализ отсутствующих данных.

  5. Он имеет только одно (похвально, бесплатно загружаемое) программное обеспечение, доступное для расчета.

  6. Это занимает больше времени , чтобы быть самостоятельным исследователем с Байесом , чем с инструментами частотными.

Карло Лаззаро
источник
6
Хороший ответ, но я не согласен с пунктом 5: я могу придумать много разных (бесплатных) программ для байесовского анализа: WinBUGS, OpenBUGS, JAGS, Stan, PyMC ... и я уверен, что есть и другие. Я бы сказал, что все эти программы имеют крутую кривую обучения и требуют приличного объема программирования и статистических знаний.
COOLSerdash
COOLSerdash прав, и я приветствую как разъяснения, так и комментарии. Мое отсутствие полноты в списке программного обеспечения для байесовского анализа, вероятно, было обусловлено моим (слабым) знакомством только с WinBugs.
Карло Лаззаро
@CarloLazzaro Я также согласен с замечанием COOLSerdash о №5: начиная с версии 14, частный лицензионный, но общедоступный пакет статистики Stata теперь включает байесовские модели и оценки в пакете vanilla. Я думаю, что байесовская вычислительная доступность будет только расти. Но другие ваши пункты важны и должны помочь в информировании сторонников Байеса.
Алексис
@Alexis: будучи пользователем Stata, я доволен его недавним байесовским колоритом. Как более общая мысль, я бы ручался изучать как частые, так и байесовские подходы во время статистических занятий в университете (вероятно, вероятностные люди начинают ворчать !!).
Карло Лаззаро
3

Одна из причин заключается в том, что байесовская статистика была заморожена из основного потока примерно до 1990 года. Когда я изучал статистику в 1970-х годах, это была почти ересь (не везде, но в большинстве программ для выпускников). Это не помогло, что большинство интересных проблем были неразрешимы. В результате почти каждый, кто преподает статистику сегодня (и рецензирует статьи для журналов, разрабатывает учебные планы), обучается как частый специалист. Ситуация начала меняться примерно в 1990 году с популяризацией методов Марковской цепи Монте-Карло (MCMC), которые постепенно находят свое применение в таких пакетах, как SAS и Stata. Лично я думаю, что они будут гораздо более распространены через 10 лет, хотя в специализированных приложениях (SPC) они могут не иметь большого преимущества.

Одна группа, которая просыпается, делает байесовский анализ более доступным - это группа, разрабатывающая пакет STAN (mc-stan.org).

equinn1
источник
Добро пожаловать на наш сайт! Просто обратите внимание, что это «Stata», а не «STATA» - я был не на том конце пользователей Stata, когда сам его использовал! (Я думал, что это похоже на SAS, SPSS и т. Д., Но, видимо, нет ...)
Silverfish,