Таким образом, в нормальном распределении у нас есть два параметра: среднее значение и дисперсия . В книге « Распознавание образов и машинное обучение» внезапно появляется гиперпараметр в терминах регуляризации функции ошибок.
Какие гиперпараметры? Почему они названы таковыми? И как они интуитивно отличаются от параметров в целом?
Ответы:
Термин гиперпараметр довольно расплывчатый. Я буду использовать его для ссылки на параметр, который находится на более высоком уровне иерархии, чем другие параметры. Для примера рассмотрим регрессионную модель с известной дисперсией (в данном случае 1)
а затем априор по параметрам, например
Здесь определяет распределение а определяет распределение для . Когда я хочу просто обратиться к я могу назвать его параметром, а когда я хочу просто обратиться к , я могу назвать его гиперпараметром.λ β β Y β λ
Присвоение имен усложняется, когда параметры отображаются на нескольких уровнях или когда есть более иерархические уровни (и вы не хотите использовать термин гипергиперпараметры). Лучше всего, если автор точно укажет, что имеется в виду, когда он использует термин гиперпараметр или параметр в этом отношении.
источник
Гиперпараметр - это просто параметр, который полностью или частично влияет на другие параметры. Они напрямую не решают проблему оптимизации, с которой вы сталкиваетесь, а скорее оптимизируют параметры, которые могут решить проблему (следовательно, гипер , потому что они не являются частью проблемы оптимизации, а скорее являются «аддонами»). Для того, что я видел, но у меня нет ссылки, это отношение является однонаправленным (гиперпараметр не может зависеть от параметров, на которые он влияет, а следовательно, и гипер ). Они обычно вводятся в схемы регуляризации или мета-оптимизации.
Например, ваш параметр может свободно влиять на и для корректировки стоимости регуляризации (но и не влияют на ). Таким образом, является гиперпараметром для и . Если бы у вас был дополнительный параметр влияющий на , это был бы гиперпараметр для и гипергиперпараметр для и (но я никогда не видел эту номенклатуру, но не чувствовал бы, что это будет неправильно если бы я это видел).λ μ σ μ σ λ λ μ σ τ λ λ μ σ
Я нашел концепцию гиперпараметра очень полезной для перекрестной проверки, потому что она напоминает вам об иерархии параметров, а также напоминает, что если вы все еще изменяете (гипер-) параметры, вы все равно выполняете перекрестную проверку и не обобщаете, поэтому вы должны будьте осторожны с вашими выводами (чтобы избежать кругового мышления).
источник
Другие объяснения немного расплывчаты; Вот более конкретное объяснение, которое должно прояснить это.
Гиперпараметры - это параметры только модели , а не физического процесса, который моделируется. Вы вводите их «искусственно», чтобы заставить вашу модель «работать» при наличии конечных данных и / или конечного времени вычислений . Если бы у вас была бесконечная сила для измерения или вычисления чего-либо, гиперпараметры больше не существовали бы в вашей модели, поскольку они не описывали бы ни один физический аспект реальной системы.
С другой стороны, обычные параметры - это те, которые описывают физическую систему, а не просто моделируют артефакты.
источник
Это не совсем определенный термин, поэтому я продолжу и дам вам еще одно определение, которое кажется совместимым с обычным употреблением.
Позвольте мне раскрутить это на примере регрессии гребня. В регрессии гребня мы решаем следующую задачу оптимизации:
источник
Как точно указывает @jaradniemi, одно использование термина гиперпараметр происходит от иерархического или многоуровневого моделирования, где у вас есть каскад статистических моделей, одна из которых построена поверх / под другими, используя обычно условные вероятностные выражения.
Но та же терминология возникает и в других контекстах с разными значениями. Например, я видел, что термин гиперпараметр использовался для обозначения параметров моделирования (длина пробега, количество независимых повторений, количество взаимодействующих частиц в каждой репликации и т. Д.) Стохастической модели, которая не является результатом многоуровневой моделирование.
источник