Статистическая интерпретация максимального распределения энтропии

23

Я использовал принцип максимальной энтропии, чтобы оправдать использование нескольких дистрибутивов в различных условиях; однако мне еще не удалось сформулировать статистическую, а не теоретико-информационную интерпретацию максимальной энтропии. Другими словами, что означает максимизация энтропии в отношении статистических свойств распределения?

Кто-нибудь сталкивался или, возможно, открыл для себя статистическую интерпретацию макс. распределение энтропии, которое не обращается к информации, но только к вероятностным понятиям?

В качестве примера такой интерпретации (не обязательно верной): «Для интервала произвольной длины L в области RV (предполагая его непрерывность 1-й для простоты) максимальная вероятность, которая может содержаться в этом интервале, сводится к минимуму по максимальному распределению энтропии ".

Итак, вы видите, что нет разговоров об «информативности» или других более философских идеях, только вероятностные последствия.

Анника
источник
3
Я думаю, что вы должны быть более конкретными в отношении того, что вы ищете: энтропия, в конце концов, такая же «статистическая» мера, как дисперсия и т. Д., Поэтому максимальное распределение энтропии максимизирует энтропию - это совершенно хорошее статистическое описание. Поэтому мне кажется, что вам нужно выйти за пределы статистики, чтобы придумать «оправдание»
seanv507
1
Seanv: Я согласен, что энтропия, как статистический функционал, так же «статистична», как дисперсия, ожидаемое значение, перекос и т. Д. Однако, используя в качестве примеров среднее и стандартное отклонение, они имеют чисто вероятностные интерпретации с помощью теорем Маркова и Чебышева и, в конечном счете, в одна из ряда центральных предельных теорем, а также интуитивно понятные как долгосрочные суммы (для среднего значения) и среднеквадратичная ошибка (для стандартного отклонения). Возможно, мне следует перефразировать мой вопрос следующим образом: «Вероятностная интерпретация максимальных распределений энтропии».
Анника
1
Анника, максимальное распределение энтропии имеет следующую интерпретацию: если являются случайными переменными, то условная вероятность P ( | X 1 + + X n = n a ) P ( ) при n , где Р * максимальное распределение энтропии из множества { P . Смотрите также ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1.X1,X2,п(|Икс1++ИксNзнак равноNa)п*()Nп*{п:ЕпИксзнак равноa}
Ашок
2
Спасибо Ашок. Я посмотрю на эту статью более подробно. Это похоже на частный случай максимизации энтропии для данного среднего значения, но мне все еще любопытно, что операция максимизации энтропии Шенона делает математически, так что вышеупомянутый результат выполняется? Эффективно ли минимизирует максимальную плотность или среднюю концентрацию вероятностного показателя?
Анника

Ответы:

19

Это на самом деле не моя сфера, поэтому некоторые размышления:

Я начну с концепции неожиданности . Что значит быть удивленным? Обычно это означает, что произошло то, чего не ожидалось. Итак, удивите это вероятностным понятием и можно объяснить как таковой (об этом писал И. Дж. Гуд). Смотрите также Википедию и Байесовский Сюрприз .

Возьмите частный случай ситуации да / нет, что-то может случиться или нет. Это происходит с вероятностью p . Скажем, если р = 0,9, и это происходит, вы не очень удивлены. Если p=0.05 и это происходит, вы несколько удивлены. И если p=0.0000001 и это происходит, вы действительно удивлены. Таким образом, естественным показателем «неожиданности в наблюдаемом результате» является некоторая (анти) монотонная функция вероятности того, что произошло. Кажется естественным (и работает хорошо ...) взять логарифм вероятности того, что произошло, и затем мы добавляем знак минус, чтобы получить положительное число. Кроме того, беря логарифм, мы концентрируемся на порядке неожиданности, и на практике вероятности часто известны только до порядка, более или менее .

Итак, мы определяем

Surprise(A)=logp(A)
где A - наблюдаемый результат, а p(A) - его вероятность.

Теперь мы можем спросить, что является ожидаемым сюрпризом . Пусть X - случайная величина Бернулли с вероятностью p . Он имеет два возможных результата, 0 и 1. Соответствующие значения неожиданности -

Surprise(0)=log(1p)Surprise(1)=logp
поэтому неожиданность при наблюденииXсама по себе является случайной величиной с ожиданием
plogp+(1p)log(1p)
и это --- сюрприз! --- энтропияX! Так что энтропия этонеожиданный сюрприз!

Теперь этот вопрос о максимальной энтропии . Почему кто-то хочет использовать максимальное распределение энтропии? Ну, это должно быть потому, что они хотят быть максимально удивленными! Зачем кому-то этого хотеть?

Можно взглянуть на это следующим образом: вы хотите что-то узнать, и для этой цели вы устанавливаете некоторый опыт обучения (или эксперименты ...). Если вы уже знали все об этой теме, вы всегда можете предсказать идеально, поэтому никогда не удивляйтесь. Тогда вы никогда не получите новый опыт, поэтому не изучайте ничего нового (но вы уже знаете все - учиться нечему, так что все в порядке). В более типичной ситуации, которая вас смущает, вы не можете точно предсказать, есть возможность обучения! Это приводит к мысли, что мы можем измерить «количество возможного обучения» ожидаемому сюрпризу , то есть энтропии. Таким образом, максимизация энтропии - это не что иное, как максимизация возможностей для обучения, Это звучит как полезная концепция, которая может быть полезна при разработке экспериментов и подобных вещей.

Поэтический пример хорошо известен

Вайнер Эйн Рейз Мачт, Данн Кан Эр был ...

Один практический пример: вы хотите спроектировать систему для онлайн-тестов (онлайн означает, что не все задают одинаковые вопросы, вопросы выбираются динамически в зависимости от предыдущих ответов, поэтому оптимизируются, в некотором роде, для каждого человека).

Если вы задаете слишком сложные вопросы, чтобы они никогда не были освоены, вы ничему не научитесь. Это означает, что вы должны снизить уровень сложности. Каков оптимальный уровень сложности, то есть уровень сложности, который максимизирует скорость обучения? Пусть вероятность правильного ответа будет p . Нам нужно значение p которое максимизирует энтропию Бернулли. Но это p=0.5 . Таким образом, вы стремитесь сформулировать вопросы, где вероятность получения правильного ответа (от этого человека) равна 0,5.

XX{X=x}logpxf(x)f

Surprise(x)=logf(x)
X
E{logf(X)}=f(x)logf(x)dx
XX . Это также можно рассматривать как ожидаемое логарифмическое правдоподобие.

X

Къетил б Халворсен
источник
5
Это одно из лучших и интуитивно понятных объяснений максимальной энтропии, которые я видел!
Владислав Довгальец
3

Не будучи экспертом в теории информации и максимальной энтропии, я некоторое время интересовался этим.

Энтропия - это мера неопределенности распределения вероятностей, которая была получена в соответствии с набором критериев. Это и связанные с ним меры характеризуют распределения вероятностей. И это единственная мера, которая удовлетворяет этим критериям. Это похоже на случай самой вероятности, который, как прекрасно объяснено в Jaynes (2003), является уникальной мерой, которая удовлетворяет некоторым очень желательным критериям для любой меры неопределенности логических утверждений.

Любая другая мера неопределенности распределения вероятности, которая отличается от энтропии, должна была бы нарушать один или несколько критериев, используемых для определения энтропии (в противном случае это обязательно будет энтропия). Итак, если бы вы имели какое-то общее утверждение с точки зрения вероятности, которое каким-то образом дало те же результаты, что и максимальная энтропия ... тогда это было бы максимальная энтропия!

До сих пор я могу найти наиболее вероятное утверждение о вероятности максимального распределения энтропии - теорема Джейнса о концентрации . Вы можете найти это ясно объясненным в Kapur и Kesavan (1992). Вот свободная переформулировка:

pnpii=1,...,nmm+1

Sm+1Smax

N

2N(SmaxS)χnm12.

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003) Теория вероятностей: логика науки. Издательство Кембриджского университета.

И. Н. Капур и К. К. Кесаван (1992) Принципы оптимизации энтропии с приложениями. Academic Press, Inc.

jvbraun
источник
3

σ

«Следовательно, в этой интерпретации основная центральная предельная теорема выражает тот факт, что энтропия по символам сумм независимых случайных величин со средним нулем и общей дисперсией стремится к максимуму. Это представляется чрезвычайно разумным; фактически это выражение Второй закон термодинамики, который Эддингтон рассматривал как «высшее положение среди законов Природы».

Я еще не исследовал последствия этого, и я не уверен, что полностью их понимаю.

[править: исправлена ​​опечатка]

Ф. Туселл
источник