Я использовал принцип максимальной энтропии, чтобы оправдать использование нескольких дистрибутивов в различных условиях; однако мне еще не удалось сформулировать статистическую, а не теоретико-информационную интерпретацию максимальной энтропии. Другими словами, что означает максимизация энтропии в отношении статистических свойств распределения?
Кто-нибудь сталкивался или, возможно, открыл для себя статистическую интерпретацию макс. распределение энтропии, которое не обращается к информации, но только к вероятностным понятиям?
В качестве примера такой интерпретации (не обязательно верной): «Для интервала произвольной длины L в области RV (предполагая его непрерывность 1-й для простоты) максимальная вероятность, которая может содержаться в этом интервале, сводится к минимуму по максимальному распределению энтропии ".
Итак, вы видите, что нет разговоров об «информативности» или других более философских идеях, только вероятностные последствия.
Ответы:
Это на самом деле не моя сфера, поэтому некоторые размышления:
Я начну с концепции неожиданности . Что значит быть удивленным? Обычно это означает, что произошло то, чего не ожидалось. Итак, удивите это вероятностным понятием и можно объяснить как таковой (об этом писал И. Дж. Гуд). Смотрите также Википедию и Байесовский Сюрприз .
Возьмите частный случай ситуации да / нет, что-то может случиться или нет. Это происходит с вероятностьюp . Скажем, если р = 0,9, и это происходит, вы не очень удивлены. Если p=0.05 и это происходит, вы несколько удивлены. И если p=0.0000001 и это происходит, вы действительно удивлены. Таким образом, естественным показателем «неожиданности в наблюдаемом результате» является некоторая (анти) монотонная функция вероятности того, что произошло. Кажется естественным (и работает хорошо ...) взять логарифм вероятности того, что произошло, и затем мы добавляем знак минус, чтобы получить положительное число. Кроме того, беря логарифм, мы концентрируемся на порядке неожиданности, и на практике вероятности часто известны только до порядка, более или менее .
Итак, мы определяемSurprise(A)=−logp(A)
где A - наблюдаемый результат, а p(A) - его вероятность.
Теперь мы можем спросить, что является ожидаемым сюрпризом . ПустьX - случайная величина Бернулли с вероятностью p . Он имеет два возможных результата, 0 и 1. Соответствующие значения неожиданности -
Surprise(0)Surprise(1)=−log(1−p)=−logp
поэтому неожиданность при наблюденииX сама по себе является случайной величиной с ожиданием
p⋅−logp+(1−p)⋅−log(1−p)
и это --- сюрприз! --- энтропияX ! Так что энтропия этонеожиданный сюрприз!
Теперь этот вопрос о максимальной энтропии . Почему кто-то хочет использовать максимальное распределение энтропии? Ну, это должно быть потому, что они хотят быть максимально удивленными! Зачем кому-то этого хотеть?
Можно взглянуть на это следующим образом: вы хотите что-то узнать, и для этой цели вы устанавливаете некоторый опыт обучения (или эксперименты ...). Если вы уже знали все об этой теме, вы всегда можете предсказать идеально, поэтому никогда не удивляйтесь. Тогда вы никогда не получите новый опыт, поэтому не изучайте ничего нового (но вы уже знаете все - учиться нечему, так что все в порядке). В более типичной ситуации, которая вас смущает, вы не можете точно предсказать, есть возможность обучения! Это приводит к мысли, что мы можем измерить «количество возможного обучения» ожидаемому сюрпризу , то есть энтропии. Таким образом, максимизация энтропии - это не что иное, как максимизация возможностей для обучения, Это звучит как полезная концепция, которая может быть полезна при разработке экспериментов и подобных вещей.
Поэтический пример хорошо известен
Один практический пример: вы хотите спроектировать систему для онлайн-тестов (онлайн означает, что не все задают одинаковые вопросы, вопросы выбираются динамически в зависимости от предыдущих ответов, поэтому оптимизируются, в некотором роде, для каждого человека).
Если вы задаете слишком сложные вопросы, чтобы они никогда не были освоены, вы ничему не научитесь. Это означает, что вы должны снизить уровень сложности. Каков оптимальный уровень сложности, то есть уровень сложности, который максимизирует скорость обучения? Пусть вероятность правильного ответа будетp . Нам нужно значение p которое максимизирует энтропию Бернулли. Но это p=0.5 . Таким образом, вы стремитесь сформулировать вопросы, где вероятность получения правильного ответа (от этого человека) равна 0,5.
источник
Не будучи экспертом в теории информации и максимальной энтропии, я некоторое время интересовался этим.
Энтропия - это мера неопределенности распределения вероятностей, которая была получена в соответствии с набором критериев. Это и связанные с ним меры характеризуют распределения вероятностей. И это единственная мера, которая удовлетворяет этим критериям. Это похоже на случай самой вероятности, который, как прекрасно объяснено в Jaynes (2003), является уникальной мерой, которая удовлетворяет некоторым очень желательным критериям для любой меры неопределенности логических утверждений.
Любая другая мера неопределенности распределения вероятности, которая отличается от энтропии, должна была бы нарушать один или несколько критериев, используемых для определения энтропии (в противном случае это обязательно будет энтропия). Итак, если бы вы имели какое-то общее утверждение с точки зрения вероятности, которое каким-то образом дало те же результаты, что и максимальная энтропия ... тогда это было бы максимальная энтропия!
До сих пор я могу найти наиболее вероятное утверждение о вероятности максимального распределения энтропии - теорема Джейнса о концентрации . Вы можете найти это ясно объясненным в Kapur и Kesavan (1992). Вот свободная переформулировка:
ET Jaynes (2003) Теория вероятностей: логика науки. Издательство Кембриджского университета.
И. Н. Капур и К. К. Кесаван (1992) Принципы оптимизации энтропии с приложениями. Academic Press, Inc.
источник
Я еще не исследовал последствия этого, и я не уверен, что полностью их понимаю.
[править: исправлена опечатка]
источник