Что означает байесовское тестирование гипотез в рамках теории логического вывода и принятия решений?

15

Мой опыт в основном связан с машинным обучением, и я пытался понять, что означает тестирование байесовской гипотезы. Я согласен с байесовской интерпретацией вероятности и знаком с ней в контексте вероятностных графических моделей. Однако меня смущает то, что означает слово «гипотеза» в контексте статистического вывода.

Я думаю, что я в основном путаюсь со словарем, который я привык в машинном обучении, по сравнению с тем, что обычно используется в статистике и умозаключениях.

В контексте контролируемого обучения , я обычно думаю , что гипотезы в качестве прогностической функции, отображающей примеры его этикетки т.е. h:XY . Однако мне кажется, что термин «гипотеза» в тех чтениях, которые я делаю, не имеет того же значения. Позвольте мне вставить выдержку из чтений, которые я читаю:

введите описание изображения здесь

Если вы внимательно прочитаете, это также говорит:

Существует другая модель для наблюдаемых данных ...

где они используют слово модель. Для меня слово модель заставляет меня думать о наборе функций, где мы выбираем определенную функцию прогнозирования. то есть класс гипотезы функции. Например, Hd2 может быть классом гипотез квадратичных функций (полином степени 2). Тем не менее, мне кажется, что они используют слово модель и гипотезу как синонимы в этом отрывке (где для меня они совершенно разные слова).

Далее следует упомянуть, что мы можем поставить априорные гипотезы (совершенно разумная вещь в байесовской среде):

pH(Hm),     m={0,1,...,M1}

также мы можем охарактеризовать данные с текущей гипотезой:

py|H(|Hm),     m={0,1,...,M1}

и обновите наши текущие убеждения, учитывая некоторые данные (и правило Байя):

pH|y(Hm|y),     m={0,1,...,M1}

Тем не менее, я думаю, что я более привык помещать байесовскую оценку для определенного параметра (скажем, ) из класса гипотез, а не для всего класса гипотез. В основном, поскольку кажется, что эти «гипотезы» не являются теми же гипотезами из контекста машинного обучения, к которому я привык, мне кажется, что эти гипотезы больше похожи на конкретную θθθ параметр чем на класс гипотез.

В этот момент я был убежден, что «гипотеза» означает то же самое, что и в функции прогнозирования (например, параметризованной параметром ), но я думаю, что я ошибался ...θ

Что еще больше усугубило мое замешательство, позже эти же чтения позволили определить конкретную «гипотезу» для каждого обучающего примера, который они наблюдали. Позвольте мне вставить выдержку из того, что я имею в виду:

введите описание изображения здесь

причина, по которой меня это смущает, заключается в том, что если я интерпретирую гипотезу как параметр, то для меня нет смысла указывать конкретный параметр для каждого значения выборки, которое мы видим. В этот момент я пришел к выводу, что я действительно не знаю, что они подразумевают под гипотезой, поэтому я разместил этот вопрос.

Однако я не сдался полностью, я исследовал, что означает гипотеза в статистике частых посещений, и нашел следующее видео ханской академии . Это видео на самом деле имеет большой смысл для меня (может быть, вы часто! :) . Тем не менее, кажется, что они получают кучу данных (например, некоторый «набор выборок») и на основании свойств набора выборок решают, принимать или отклонять нулевую гипотезу о данных. Однако в байесовском контексте, который я читаю, мне кажется, что для каждого наблюдаемого вектора данных [точки] они «маркируют его» гипотезой «Тест отношения правдоподобия»:

введите описание изображения здесь

То, как они назначают гипотезу для каждой выборки данных, даже выглядит как контролируемое обучение, когда мы прикрепляем ярлык к каждому обучающему набору. Тем не менее, я не думаю, что это то, что они делают в этом контексте.Что они делают? Что значит назначить гипотезу каждой выборке данных? В чем смысл гипотезы? Что означает слово модель?

По сути, после этого длинного объяснения моей путаницы кто-то знает, что означает тестирование байесовской гипотезы в этом контексте?


Если вам нужны какие-либо разъяснения или что-то еще, чтобы улучшить мой вопрос или чтобы вопрос имел смысл, я более чем рад помочь :)


В поисках ответа я нашел несколько полезных вещей, связанных со статистической проверкой гипотез:

Это хороший пример введения в тему, если вы пришли из CS (как я):

Что является хорошим введением в проверку статистических гипотез для компьютерных ученых?

В какой-то момент я спросил о «параметрах по умолчанию» (которые я должен был определить, что я имел в виду. Я думал, что это стандартный термин, но это не так, поэтому здесь я рассмотрю его), и я думаю, что я действительно имел в виду, как сделать Вы указываете параметры для каждой имеющейся у вас гипотезы. Например, как вы решаете, какова ваша нулевая гипотеза и ее параметры. С этим связан вопрос:

Как указать нулевую гипотезу в проверке гипотез

Пиноккио
источник
@ Сиань Я прочитал следующую статью в Википедии: en.wikipedia.org/wiki/Statistical_model - это то, что они подразумевают под моделью и гипотезой? спасибо за ваше терпение, кстати :)
Буратино
3
Я не решаюсь углубляться в эту дискуссию, потому что я думаю, что ваша проблема на самом деле в том, что вы понимаете, что означает проверка гипотез в принципе, а не конкретно, что такое проверка гипотез в байесовской структуре. Чтобы помочь в этом, я предлагаю взглянуть на книгу Гейссера «Режимы параметрического статистического вывода». books.google.ca/…
rocinante
@rocinante Я думаю, что согласен с тобой. Я окончательно запутался в проверке гипотез в целом (и байесовская структура не помогает вообще). Я определенно посмотрю на это. Спасибо за ваше терпение и понимание, это очень ценится.
Буратино
Это не легко понять, потому что это не легко сформулировать кратко. Вместо того, чтобы думать об этом в абстрактных терминах (например, картах), возможно, это поможет, если вы подумаете об этом на более простом
примере.
1
2/2 Предположим, у вас есть монета, и вы хотите посмотреть, честна ли она, поэтому переверните ее 50 раз. Теперь у вас есть набор данных, о котором вы хотите сделать какой-то вывод (т.е. является ли монета предвзятой или нет). По логике, если монета справедлива, примерно половина бросков должна быть головами. (Обратите внимание, что это не вывод статистики, а ваше собственное логическое обоснование). Это ваша гипотеза. Вы можете проверить эту гипотезу двумя способами: байесовским и частым.
Рочананте

Ответы:

10

Статистическая модель задается семейством вероятностных распределений. Когда модель параметрическая, это семейство индексируется неизвестным параметром : F = { f ( |θ Если кто-то хочет проверить гипотезу о

F={f(|θ); θΘ}
такую ​​как H 0 :θ , можно считать две модели противоположными: F против F 0 = { f ( | θ ) ; & thetas ; ∈ & thetas ; 0 } Смоей точки зрения байесовского, я рисую вывод об индексе модели за данными, М . Поэтому я ставлю априор на этот индекс, ρ 0 и ρ a , а также на параметры обеих моделей, π 0 ( θ ) над ( θ )H0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ) иΘ0 = ρ 0 ∫ & thetas ; 0 F ( х | & thetas ; ) π 0 ( & thetas ; ) d & thetas ;πa(θ) над . И тогда я получу апостериорное распределение этого индекса: π ( m = 0 | x )Θ Вдокументе, на который вы ссылаетесь,гораздо больше подробностей в этой перспективе и должен стать вашим выбором при статистическом тестировании гипотез, если только вы не можете позволить себе просмотреть целую байесовскую книгу. Или даже книга машинного обучения
π(мзнак равно0|Икс)знак равноρ0Θ0е(Икс|θ)π0(θ)dθρ0Θ0е(Икс|θ)π0(θ)dθ+(1-ρ0)Θе(Икс|θ)πa(θ)dθ
как у Кевина Мерфи .

Икс~N(θ,1)ЧАС0:θзнак равно0θзнак равно0N(0,1)θθ~N(0,10)ρ0знак равно1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}
Сиань
источник
пЧАС(ЧАС0)F0θF0пY|ЧАС(Y|ЧАС0)ЧАС0ЧАС0
ЧАСмθFмЧАСмзнак равно(θ,Fм)θFм
ρ0ЧАС0F0ρ0знак равно0π0(θ)θЧАС0
поэтому, если гипотеза является кортежем предложенной статистической модели и параметром по умолчанию, как выбирается параметр по умолчанию?
Буратино
Я не понимаю, что вы подразумеваете под «параметром по умолчанию»: гипотеза - это либо модель, в которой все параметры зафиксированы в известных значениях (например, θзнак равно0в приведенном выше примере) или с некоторыми параметрами неизвестно. В последнем случае байесовский подход подразумевает наложение этих распределений на эти неизвестные.
Сиань
4

Отличный вопрос. Я думаю, что ваша путаница может возникнуть из-за некоторых основных различий между «частыми» и «байесовскими» взглядами. У меня большой опыт работы с первым, и я новичок в последующем, поэтому попытка нескольких простых наблюдений может мне тоже помочь. Я отредактировал ваш вопрос, чтобы прояснить несколько различий - по крайней мере, насколько я их понимаю. Надеюсь, ты не против! Если я ошибаюсь, вы можете изменить свой вопрос или добавить комментарий к этому ответу.

1) Риск звучит слишком элементарно: модель - это любое утверждение, в котором делается попытка объяснить реальность, например: «Если бы у меня были блины на завтрак, это должен быть вторник». Таким образом, модель является гипотезой. Известная цитата Джорджа Бокса: «Все модели ошибочны, некоторые модели полезны». Чтобы модель была полезной, должен быть какой-то способ ее проверить. Введите концепцию конкурирующих гипотез и ответ на один из ваших вопросов. Я бы предположил, что «... в контексте статистического вывода» гипотеза - это любая модель, которая может быть полезна и может быть проверена математически. Таким образом, проверка гипотез является средством принятия решения о том, полезна модель или нет. Таким образом, гипотеза является рассматриваемой моделью. Это могут быть разные значения параметров одной и той же функции или разные функции.

2) Ваше видео Кана является примером того, что Байесиан называет «частым» подходом к проверке гипотез, поэтому он может сбить вас с толку, пытаясь применить его к своим лекционным заметкам, которые являются байесовскими. Я пытался придумать простое различие между применением двух подходов (что может быть опасно). Я думаю, что понимаю философское различие достаточно хорошо. Из того, что я видел, «Frequentist» предполагает случайный компонент данных и проверяет, насколько вероятно, что наблюдаемые данные получают неслучайные параметры. «Байесовский» предполагает, что данные являются фиксированными и определяет наиболее вероятное значение случайных параметров. Эта разница приводит к различным методам тестирования.

В тестировании гипотез «Frequentist» модель, которая может быть полезной, объясняет некоторый эффект, поэтому ее сравнивают с «нулевой гипотезой» - моделью без эффекта. Предпринята попытка создать полезную модель, которая является взаимоисключающей с моделью без эффекта. Затем проводится проверка вероятности наблюдения данных в предположении отсутствия эффекта. Если эта вероятность оказывается низкой, нулевая гипотеза отклоняется, и остается только альтернатива. (Обратите внимание, что пурист никогда не «примет» нулевую гипотезу, а только «не сможет отвергнуть ее». Это может звучать как ангелы, танцующие на головке булавки, но различие является фундаментальным философским). Вступительная статистика обычно начинается с того, что может будь самым простым примером: «две группы разные».столь же большой или больший, как измерено случайным экспериментом, учитывая, что они не отличаются. Обычно это t-критерий, в котором нулевая гипотеза состоит в том, что разница средних значений равна нулю. Таким образом, параметр является средним при фиксированном значении ноль.

Байесовский говорит, «Минуточку, мы сделали эти измерения , и они являются различными, так как велика вероятность , что?» Они вычисляют вероятность для каждого значения (теперь) случайного параметра и выбирают тот, который является самым высоким, как наиболее вероятный. Таким образом, в некотором смысле каждое возможное значение параметра является отдельной моделью. Но теперь им нужен способ принять решение о том, достаточно ли различна модель с наибольшей вероятностью, чтобы иметь значение. Вот почему в ваших лекционных заметках была введена функция стоимости. Чтобы принять правильное решение, необходимо сделать некоторые предположения о последствиях принятия неправильного решения.

3) «Что значит назначить гипотезу каждой выборке данных?» Я не думаю, что они есть. Будьте осторожны с тем, что подразумевается под «точкой выборки». Я полагаю, что они имеют в виду конкретный вектор выборки и хотят знать, насколько вероятна каждая гипотеза для всех векторов выборки в пространстве выборки. Уравнения (14) и (15) показывают, как сравнить две гипотезы для конкретного вектора выборки. Таким образом, они упрощают общий аргумент сравнения нескольких гипотез, показывая, как сравнивать только две.

Монтана
источник
0

Скажем, у вас есть данные из набора ящиков. Данные состоят из длины (L), ширины (W), высоты (H) и объема (V).

Если мы мало знаем о блоках / геометрии, мы можем попробовать модель:

V = a*L + b*W + c*H + e

Эта модель имеет три параметра (a, b, c), которые можно варьировать, плюс член ошибки / стоимости (e), описывающий, насколько хорошо гипотеза соответствует данным. Каждая комбинация значений параметров будет рассматриваться как другая гипотеза. Выбранное значение параметра «по умолчанию» обычно равно нулю, что в приведенном выше примере соответствует «отсутствию связи» между V и L, W, H.

Люди проверяют эту гипотезу «по умолчанию», проверяя, находится ли е выше некоторого порогового значения, обычно вычисляя значение p, предполагая нормальное распределение ошибок вокруг соответствия модели. Если эта гипотеза отклоняется, то они находят комбинацию параметров a, b, c, которая максимизирует вероятность, и представляют, что это наиболее вероятная гипотеза. Если они являются байесовскими, они умножают вероятность на предыдущую для каждого набора значений параметров и выбирают решение, которое максимизирует апостериорную вероятность.

Очевидно, что эта стратегия неоптимальна в том смысле, что модель предполагает аддитивность, и ей будет не хватать правильной гипотезы:

V = L*W*H + e

Редактировать: @Pinocchio

Возможно, кто-то не согласился с утверждением, что проверка гипотез неоптимальна, когда нет рациональной причины выбирать одну / несколько функций (или, как вы говорите: «классы гипотез») из бесконечно многих возможных. Конечно, это тривиально верно, и «оптимальный» может использоваться в ограниченном смысле «наилучшее соответствие с учетом функции стоимости и предоставленных вариантов». Этот комментарий вошел в мой ответ, потому что мне не нравилось, как проблема спецификации модели была скрыта в ваших заметках к классу. Это главная проблема, стоящая перед большинством научных работников, для которой нет алгоритма.

Кроме того, я не мог понять p-значения, проверку гипотез и т. Д., Пока не понял историю, поэтому, возможно, это поможет и вам. Существует множество источников путаницы, связанной с проверкой гипотезы, основанной на частоте (я не очень знаком с историей байесовского варианта).

Существует то, что первоначально называлось «проверкой гипотез» в смысле Неймана-Пирсона, «проверкой значимости», разработанным Рональдом Фишером, а также плохо определенным, никогда не обоснованным «гибридом» этих двух стратегий, широко используемых в науках (которые может случайно упоминаться с использованием вышеупомянутого термина или «проверки значимости нулевой гипотезы»). Хотя я бы не рекомендовал считать страницу википедии авторитетной, многие источники, обсуждающие эти вопросы, можно найти здесь . Некоторые основные моменты:

  1. Использование гипотезы «по умолчанию» не является частью первоначальной процедуры проверки гипотезы, скорее пользователь должен использовать предварительные знания для определения рассматриваемых моделей. Я никогда не видел явных рекомендаций сторонников этой модели относительно того, что делать, если у нас нет особой причины выбирать определенный набор гипотез для сравнения. Часто говорят, что этот подход подходит для контроля качества, когда существуют известные допуски для сравнения некоторых измерений.

  2. В парадигме Фишера «проверка значимости» нет альтернативной гипотезы, только нулевая гипотеза, которая может быть отклонена, если с учетом данных будет считаться маловероятной. Из моего прочтения сам Фишер сомневался в использовании нулевых гипотез по умолчанию. Я никогда не мог найти его комментирующим явно по этому вопросу, однако он, конечно, не рекомендовал, чтобы это была единственная нулевая гипотеза.

  3. Использование нулевой гипотезы по умолчанию иногда рассматривается как «злоупотребление» проверкой гипотезы, но оно является центральным в упомянутом популярном гибридном методе. Утверждается, что эта практика часто является «бесполезным предварительным»:

    «Исследователь формулирует теоретический прогноз, обычно направление эффекта ... Когда данные фактически показывают прогнозируемый направленный результат, это, кажется, подтверждает гипотезу. Исследователь проверяет нулевую гипотезу« соломенного человека », что эффект на самом деле 0. Если последнее не может быть отклонено на уровне .05 (или некотором варианте), то очевидное подтверждение теории не может быть заявлено ... Общей ошибкой в ​​этом типе теста является путаница уровня значимости, фактически достигнутого (для отклонение ноль-соломенного человека) с уровнем подтверждения, достигнутым для исходной теории ... сила подтверждения на самом деле зависит от [точности численных предсказаний исследователя], а не от уровня значимости, достигнутого для ноль-соломенного человека ".

    Противоречие проверки нулевой гипотезы в психологии. Дэвид Х Кранц. Журнал Американской Статистической Ассоциации; Декабрь 1999 г .; 94, 448; 1372-1381

Видео академии Хана является примером этого гибридного метода и виновно в совершении ошибки, отмеченной в этой цитате. Из информации, доступной в этом видео, мы можем только заключить, что инъецированные крысы отличаются от неинъецированных, в то время как из видео утверждается, что мы можем заключить, что «препарат определенно оказывает некоторое влияние». Немного размышлений заставило бы нас задуматься о том, что, возможно, тестируемые крысы были старше, чем не инъецированные, и т. Д. Мы должны исключить возможные альтернативные объяснения, прежде чем требовать доказательства для нашей теории. Чем менее конкретным является предсказание теории , тем сложнее это сделать.

Изменить 2:

Возможно, поможет пример из ваших записей о медицинском диагнозе. Скажем, пациент может быть либо «нормальным», либо «гипертоническим кризом».

У нас есть предварительная информация, что только 1% людей находятся в гипертоническом кризе. Люди с гипертоническим кризом имеют систолическое артериальное давление, которое соответствует нормальному распределению со средним значением = 180 и с.д. = 10. Между тем, нормальные люди имеют артериальное давление от нормального распределения со средним значением = 120, SD = 10. Стоимость оценки нормального человека, когда он равен нулю, стоимость пропуска диагноза равна 1, а стоимость из-за побочных эффектов лечения составляет 0,2 независимо от того, находятся ли они в кризисе или нет. Затем следующий код R вычисляет пороговое значение (eta) и отношение правдоподобия. Если отношение правдоподобия больше порога, который мы решаем лечить, если меньше, чем мы:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

В приведенном выше сценарии пороговое значение eta = 15,84. Если мы проведем три измерения артериального давления и получим 139,9237, 125,2278, 190,3765, то отношение вероятности составит 27,6 в пользу H1: пациент в состоянии гипертонического криза. Поскольку 27,6 больше порога, который мы бы выбрали для лечения. График показывает нормальную гипотезу в зеленом и гипертоническом в красном. Вертикальные черные линии указывают значения наблюдений.

введите описание изображения здесь

синевато-багровый
источник
может ли человек, который проголосовал за это объяснить? Что не так с этим ответом? : S
Буратино
@Pinocchio Я попытался прояснить некоторые вещи с некоторой историей в ответе, «проверка гипотез» является трудным предметом, чтобы ясно обсуждать из-за этого. Я думаю, что ответил на вопросы о том, как используются термины модель / гипотеза, но не понимаю этого: «Что значит назначать гипотезу каждой выборке данных?»
Живи
Я не могу понять, почему этот ответ был отклонен, и почему он не более проголосовал. Это действительно отлично. Он может использовать немного больше теоретических определений, но он явно ориентирован на более широкую аудиторию, чем статистики. Первый пример использования GLM был особенно поучительным и полностью соответствовал моим (многочисленным) академическим чтениям. Суть в том, что основным отличием между частыми и байесовскими проверками гипотез является учет предшествующего значения для вычисления MAP (а не только MLE).
Габорист
Я мог бы добавить, что графическое представление первого примера с GLM было бы удивительным и очень поучительным, возможно, с использованием своего рода сюжетного рычага ?
Габорист