Мой опыт в основном связан с машинным обучением, и я пытался понять, что означает тестирование байесовской гипотезы. Я согласен с байесовской интерпретацией вероятности и знаком с ней в контексте вероятностных графических моделей. Однако меня смущает то, что означает слово «гипотеза» в контексте статистического вывода.
Я думаю, что я в основном путаюсь со словарем, который я привык в машинном обучении, по сравнению с тем, что обычно используется в статистике и умозаключениях.
В контексте контролируемого обучения , я обычно думаю , что гипотезы в качестве прогностической функции, отображающей примеры его этикетки т.е. . Однако мне кажется, что термин «гипотеза» в тех чтениях, которые я делаю, не имеет того же значения. Позвольте мне вставить выдержку из чтений, которые я читаю:
Если вы внимательно прочитаете, это также говорит:
Существует другая модель для наблюдаемых данных ...
где они используют слово модель. Для меня слово модель заставляет меня думать о наборе функций, где мы выбираем определенную функцию прогнозирования. то есть класс гипотезы функции. Например, может быть классом гипотез квадратичных функций (полином степени 2). Тем не менее, мне кажется, что они используют слово модель и гипотезу как синонимы в этом отрывке (где для меня они совершенно разные слова).
Далее следует упомянуть, что мы можем поставить априорные гипотезы (совершенно разумная вещь в байесовской среде):
также мы можем охарактеризовать данные с текущей гипотезой:
и обновите наши текущие убеждения, учитывая некоторые данные (и правило Байя):
Тем не менее, я думаю, что я более привык помещать байесовскую оценку для определенного параметра (скажем, ) из класса гипотез, а не для всего класса гипотез. В основном, поскольку кажется, что эти «гипотезы» не являются теми же гипотезами из контекста машинного обучения, к которому я привык, мне кажется, что эти гипотезы больше похожи на конкретную θ параметр чем на класс гипотез.
В этот момент я был убежден, что «гипотеза» означает то же самое, что и в функции прогнозирования (например, параметризованной параметром ), но я думаю, что я ошибался ...
Что еще больше усугубило мое замешательство, позже эти же чтения позволили определить конкретную «гипотезу» для каждого обучающего примера, который они наблюдали. Позвольте мне вставить выдержку из того, что я имею в виду:
причина, по которой меня это смущает, заключается в том, что если я интерпретирую гипотезу как параметр, то для меня нет смысла указывать конкретный параметр для каждого значения выборки, которое мы видим. В этот момент я пришел к выводу, что я действительно не знаю, что они подразумевают под гипотезой, поэтому я разместил этот вопрос.
Однако я не сдался полностью, я исследовал, что означает гипотеза в статистике частых посещений, и нашел следующее видео ханской академии . Это видео на самом деле имеет большой смысл для меня (может быть, вы часто! :) . Тем не менее, кажется, что они получают кучу данных (например, некоторый «набор выборок») и на основании свойств набора выборок решают, принимать или отклонять нулевую гипотезу о данных. Однако в байесовском контексте, который я читаю, мне кажется, что для каждого наблюдаемого вектора данных [точки] они «маркируют его» гипотезой «Тест отношения правдоподобия»:
То, как они назначают гипотезу для каждой выборки данных, даже выглядит как контролируемое обучение, когда мы прикрепляем ярлык к каждому обучающему набору. Тем не менее, я не думаю, что это то, что они делают в этом контексте.Что они делают? Что значит назначить гипотезу каждой выборке данных? В чем смысл гипотезы? Что означает слово модель?
По сути, после этого длинного объяснения моей путаницы кто-то знает, что означает тестирование байесовской гипотезы в этом контексте?
Если вам нужны какие-либо разъяснения или что-то еще, чтобы улучшить мой вопрос или чтобы вопрос имел смысл, я более чем рад помочь :)
В поисках ответа я нашел несколько полезных вещей, связанных со статистической проверкой гипотез:
Это хороший пример введения в тему, если вы пришли из CS (как я):
Что является хорошим введением в проверку статистических гипотез для компьютерных ученых?
В какой-то момент я спросил о «параметрах по умолчанию» (которые я должен был определить, что я имел в виду. Я думал, что это стандартный термин, но это не так, поэтому здесь я рассмотрю его), и я думаю, что я действительно имел в виду, как сделать Вы указываете параметры для каждой имеющейся у вас гипотезы. Например, как вы решаете, какова ваша нулевая гипотеза и ее параметры. С этим связан вопрос:
источник
Ответы:
Статистическая модель задается семейством вероятностных распределений. Когда модель параметрическая, это семейство индексируется неизвестным параметром : F = { f ( ⋅ |θ
Если кто-то хочет проверить гипотезу о
источник
Отличный вопрос. Я думаю, что ваша путаница может возникнуть из-за некоторых основных различий между «частыми» и «байесовскими» взглядами. У меня большой опыт работы с первым, и я новичок в последующем, поэтому попытка нескольких простых наблюдений может мне тоже помочь. Я отредактировал ваш вопрос, чтобы прояснить несколько различий - по крайней мере, насколько я их понимаю. Надеюсь, ты не против! Если я ошибаюсь, вы можете изменить свой вопрос или добавить комментарий к этому ответу.
1) Риск звучит слишком элементарно: модель - это любое утверждение, в котором делается попытка объяснить реальность, например: «Если бы у меня были блины на завтрак, это должен быть вторник». Таким образом, модель является гипотезой. Известная цитата Джорджа Бокса: «Все модели ошибочны, некоторые модели полезны». Чтобы модель была полезной, должен быть какой-то способ ее проверить. Введите концепцию конкурирующих гипотез и ответ на один из ваших вопросов. Я бы предположил, что «... в контексте статистического вывода» гипотеза - это любая модель, которая может быть полезна и может быть проверена математически. Таким образом, проверка гипотез является средством принятия решения о том, полезна модель или нет. Таким образом, гипотеза является рассматриваемой моделью. Это могут быть разные значения параметров одной и той же функции или разные функции.
2) Ваше видео Кана является примером того, что Байесиан называет «частым» подходом к проверке гипотез, поэтому он может сбить вас с толку, пытаясь применить его к своим лекционным заметкам, которые являются байесовскими. Я пытался придумать простое различие между применением двух подходов (что может быть опасно). Я думаю, что понимаю философское различие достаточно хорошо. Из того, что я видел, «Frequentist» предполагает случайный компонент данных и проверяет, насколько вероятно, что наблюдаемые данные получают неслучайные параметры. «Байесовский» предполагает, что данные являются фиксированными и определяет наиболее вероятное значение случайных параметров. Эта разница приводит к различным методам тестирования.
В тестировании гипотез «Frequentist» модель, которая может быть полезной, объясняет некоторый эффект, поэтому ее сравнивают с «нулевой гипотезой» - моделью без эффекта. Предпринята попытка создать полезную модель, которая является взаимоисключающей с моделью без эффекта. Затем проводится проверка вероятности наблюдения данных в предположении отсутствия эффекта. Если эта вероятность оказывается низкой, нулевая гипотеза отклоняется, и остается только альтернатива. (Обратите внимание, что пурист никогда не «примет» нулевую гипотезу, а только «не сможет отвергнуть ее». Это может звучать как ангелы, танцующие на головке булавки, но различие является фундаментальным философским). Вступительная статистика обычно начинается с того, что может будь самым простым примером: «две группы разные».столь же большой или больший, как измерено случайным экспериментом, учитывая, что они не отличаются. Обычно это t-критерий, в котором нулевая гипотеза состоит в том, что разница средних значений равна нулю. Таким образом, параметр является средним при фиксированном значении ноль.
Байесовский говорит, «Минуточку, мы сделали эти измерения , и они являются различными, так как велика вероятность , что?» Они вычисляют вероятность для каждого значения (теперь) случайного параметра и выбирают тот, который является самым высоким, как наиболее вероятный. Таким образом, в некотором смысле каждое возможное значение параметра является отдельной моделью. Но теперь им нужен способ принять решение о том, достаточно ли различна модель с наибольшей вероятностью, чтобы иметь значение. Вот почему в ваших лекционных заметках была введена функция стоимости. Чтобы принять правильное решение, необходимо сделать некоторые предположения о последствиях принятия неправильного решения.
3) «Что значит назначить гипотезу каждой выборке данных?» Я не думаю, что они есть. Будьте осторожны с тем, что подразумевается под «точкой выборки». Я полагаю, что они имеют в виду конкретный вектор выборки и хотят знать, насколько вероятна каждая гипотеза для всех векторов выборки в пространстве выборки. Уравнения (14) и (15) показывают, как сравнить две гипотезы для конкретного вектора выборки. Таким образом, они упрощают общий аргумент сравнения нескольких гипотез, показывая, как сравнивать только две.
источник
Скажем, у вас есть данные из набора ящиков. Данные состоят из длины (L), ширины (W), высоты (H) и объема (V).
Если мы мало знаем о блоках / геометрии, мы можем попробовать модель:
Эта модель имеет три параметра (a, b, c), которые можно варьировать, плюс член ошибки / стоимости (e), описывающий, насколько хорошо гипотеза соответствует данным. Каждая комбинация значений параметров будет рассматриваться как другая гипотеза. Выбранное значение параметра «по умолчанию» обычно равно нулю, что в приведенном выше примере соответствует «отсутствию связи» между V и L, W, H.
Люди проверяют эту гипотезу «по умолчанию», проверяя, находится ли е выше некоторого порогового значения, обычно вычисляя значение p, предполагая нормальное распределение ошибок вокруг соответствия модели. Если эта гипотеза отклоняется, то они находят комбинацию параметров a, b, c, которая максимизирует вероятность, и представляют, что это наиболее вероятная гипотеза. Если они являются байесовскими, они умножают вероятность на предыдущую для каждого набора значений параметров и выбирают решение, которое максимизирует апостериорную вероятность.
Очевидно, что эта стратегия неоптимальна в том смысле, что модель предполагает аддитивность, и ей будет не хватать правильной гипотезы:
Редактировать: @Pinocchio
Возможно, кто-то не согласился с утверждением, что проверка гипотез неоптимальна, когда нет рациональной причины выбирать одну / несколько функций (или, как вы говорите: «классы гипотез») из бесконечно многих возможных. Конечно, это тривиально верно, и «оптимальный» может использоваться в ограниченном смысле «наилучшее соответствие с учетом функции стоимости и предоставленных вариантов». Этот комментарий вошел в мой ответ, потому что мне не нравилось, как проблема спецификации модели была скрыта в ваших заметках к классу. Это главная проблема, стоящая перед большинством научных работников, для которой нет алгоритма.
Кроме того, я не мог понять p-значения, проверку гипотез и т. Д., Пока не понял историю, поэтому, возможно, это поможет и вам. Существует множество источников путаницы, связанной с проверкой гипотезы, основанной на частоте (я не очень знаком с историей байесовского варианта).
Существует то, что первоначально называлось «проверкой гипотез» в смысле Неймана-Пирсона, «проверкой значимости», разработанным Рональдом Фишером, а также плохо определенным, никогда не обоснованным «гибридом» этих двух стратегий, широко используемых в науках (которые может случайно упоминаться с использованием вышеупомянутого термина или «проверки значимости нулевой гипотезы»). Хотя я бы не рекомендовал считать страницу википедии авторитетной, многие источники, обсуждающие эти вопросы, можно найти здесь . Некоторые основные моменты:
Использование гипотезы «по умолчанию» не является частью первоначальной процедуры проверки гипотезы, скорее пользователь должен использовать предварительные знания для определения рассматриваемых моделей. Я никогда не видел явных рекомендаций сторонников этой модели относительно того, что делать, если у нас нет особой причины выбирать определенный набор гипотез для сравнения. Часто говорят, что этот подход подходит для контроля качества, когда существуют известные допуски для сравнения некоторых измерений.
В парадигме Фишера «проверка значимости» нет альтернативной гипотезы, только нулевая гипотеза, которая может быть отклонена, если с учетом данных будет считаться маловероятной. Из моего прочтения сам Фишер сомневался в использовании нулевых гипотез по умолчанию. Я никогда не мог найти его комментирующим явно по этому вопросу, однако он, конечно, не рекомендовал, чтобы это была единственная нулевая гипотеза.
Использование нулевой гипотезы по умолчанию иногда рассматривается как «злоупотребление» проверкой гипотезы, но оно является центральным в упомянутом популярном гибридном методе. Утверждается, что эта практика часто является «бесполезным предварительным»:
Противоречие проверки нулевой гипотезы в психологии. Дэвид Х Кранц. Журнал Американской Статистической Ассоциации; Декабрь 1999 г .; 94, 448; 1372-1381
Видео академии Хана является примером этого гибридного метода и виновно в совершении ошибки, отмеченной в этой цитате. Из информации, доступной в этом видео, мы можем только заключить, что инъецированные крысы отличаются от неинъецированных, в то время как из видео утверждается, что мы можем заключить, что «препарат определенно оказывает некоторое влияние». Немного размышлений заставило бы нас задуматься о том, что, возможно, тестируемые крысы были старше, чем не инъецированные, и т. Д. Мы должны исключить возможные альтернативные объяснения, прежде чем требовать доказательства для нашей теории. Чем менее конкретным является предсказание теории , тем сложнее это сделать.
Изменить 2:
Возможно, поможет пример из ваших записей о медицинском диагнозе. Скажем, пациент может быть либо «нормальным», либо «гипертоническим кризом».
У нас есть предварительная информация, что только 1% людей находятся в гипертоническом кризе. Люди с гипертоническим кризом имеют систолическое артериальное давление, которое соответствует нормальному распределению со средним значением = 180 и с.д. = 10. Между тем, нормальные люди имеют артериальное давление от нормального распределения со средним значением = 120, SD = 10. Стоимость оценки нормального человека, когда он равен нулю, стоимость пропуска диагноза равна 1, а стоимость из-за побочных эффектов лечения составляет 0,2 независимо от того, находятся ли они в кризисе или нет. Затем следующий код R вычисляет пороговое значение (eta) и отношение правдоподобия. Если отношение правдоподобия больше порога, который мы решаем лечить, если меньше, чем мы:
В приведенном выше сценарии пороговое значение eta = 15,84. Если мы проведем три измерения артериального давления и получим 139,9237, 125,2278, 190,3765, то отношение вероятности составит 27,6 в пользу H1: пациент в состоянии гипертонического криза. Поскольку 27,6 больше порога, который мы бы выбрали для лечения. График показывает нормальную гипотезу в зеленом и гипертоническом в красном. Вертикальные черные линии указывают значения наблюдений.
источник