При трактовке относительной нормализованной функции полезности как pmf, какова интерпретация энтропии Шеннона или информации Шеннона?

10

Предположим, что - это набор взаимоисключающих результатов дискретной случайной величины, а - это функция полезности, где , и т. Д.Ωе0<е(ω)1ΣΩе(ω)знак равно1

Когда равномерно распределена по а - функция вероятностной массы , энтропия Шеннона равна максимизируется ( , и когда один элемент имеет все масс «s, энтропия Шеннона минимизируется ( , на самом деле). Это соответствует интуиции о неожиданности (или уменьшении неопределенности ) и результатах и неопределенности (или ожидаемой неожиданности ) и случайных переменных:еΩеЧАС(Ω)знак равноΣΩе(ω)Lог1е(ω)знак равноLог|Ω|)Ωе0

  • Когда равномерно распределено, неопределенность максимизируется, и чем больше результатов для равномерного распределения массы, тем более неопределенной мы являемся.е
  • Когда имеет все его масса сосредоточена в одном исходе, у нас нет никакой неопределенности.е
  • Когда мы назначаем результат с вероятностью , мы не получаем никакой информации («не удивлены»), когда мы фактически наблюдаем это.1
  • Когда мы назначаем результат вероятности ближе и ближе к , наблюдение за его фактическим происходящим становится все более информативным («удивительным»).0

(Конечно, все это ничего не говорит о гораздо более конкретной - но менее эпистемологической - интерпретации кодирования информации / энтропии Шеннона.)

Однако, когда имеет интерпретацию функции полезности , существует ли чувственная интерпретация или ? Мне кажется, что может быть:л о г 1еf(ω)log1Lог1е(ω)Σе(ω)Lог1е(ω)

  • если как PMF представляет собой равномерное распределение по , то как функция полезности соответствует безразличию к результатам, которые не могут быть больше *Ω fеΩе
  • функция полезности, в которой у одного результата есть вся полезность, а у остальных нет ни одной (как бы полезна ни была полезность), соответствует очень сильным относительным предпочтениям - отсутствию равнодушия.

Есть ли ссылка на это? Я что-то упустил из-за ограничений на сравнение функций вероятностной массы и нормализованных относительных утилит по дискретным случайным переменным?

* Я знаю о кривых безразличия и не понимаю, как они могут относиться к моему вопросу по разным причинам, начиная с моего внимания к категориальному пробному пространству и с того факта, что меня не интересует «безразличие» как таковое, а точнее, как интерпретировать утилиты как вероятности и как интерпретировать функционалы по вероятностям, когда (дискретное) «распределение вероятностей», о котором идет речь, фактически или (дополнительно) имеет интерпретацию функции полезности.

EM23
источник
У меня нет ответа, но ваш вопрос заставляет меня задуматься об использовании энтропии в проблеме правильного разрезания пирога: en.wikipedia.org/wiki/Fair_cake-cutting Стандартная модель такова, что пирог является интервалом [0, 1], и есть агентов с различными нормированными значениями измерения на интервале. Предполагается, что эти меры не являются атомарными, но нет никаких дополнительных предположений об их «энтропии». Может быть интересно подумать, что мы можем сказать о задачах разрезания тортов, где функции полезности имеют ограниченную энтропию. N
Эрл Сегал-Халеви

Ответы:

3

Прежде чем обсуждать энтропию Шеннона, следует обсудить еще один момент: кажется, что вы имеете в виду скорее кардинальную полезность, чем порядковую .

«Нормализованные» функции полезности могут быть выведены, конечно, в обоих случаях. Но понятие «относительное предпочтение» может быть определено и измерено только в контексте основной полезности.

И проблема возникает не в двух крайностях, которые вы описываете, а во всех возможных промежуточных случаях.

Простой пример: предположим, что есть три «результата», (скажем, уровни потребления или три разных товара в каждом количестве). Ваша служебная функция присвоила им значенияA,В,С

В(A)знак равно1,В(В)знак равно9,В(С)знак равно90

Под порядковой полезностью, это просто говорит нам, что

A<прВ<прС

Конечно, мы можем нормализовать их, разделив на чтобы получить100

и ранжирование трех результатов сохраняется

UV(A)=0.01,UV(B)=0.09,UV(C)=0.9

Но под порядковой полезностью мы могли бы очень хорошо использовать другую полезную функцию, которая назначала бы

W(A)=31,W(B)=32,W(C)=37

и получить

UW(A)=0.31,UW(B)=0.32,UW(C)=0.37

Ранжирование одно и то же , так что две функции полезности и W являются эквивалентны под порядковым полезности.VW

Но в том, что вы описываете, функция полезности представляет различные относительные предпочтения, чем V, и поэтому это не та же функция полезности. Но это имеет смысл только при кардинальной полезности, где предполагается, что количественные сравнения между числами полезности имеют смысл. WV

Вы знакомы с проблемами, связанными с основной полезностью?

Алекос Пападопулос
источник
Знаете, что такие проблемы существуют? Да. Понимая, почему (помимо личного назидания) мне может потребоваться тщательно рассмотреть такие вопросы? Не совсем, хотя для интересующей меня области (проблемы решения с действиями и средами, которые являются категориальными RV), полезность, как правило, считается кардинальной, насколько я могу судить - и U действительно считаются различными функциями полезности. Хотя это заметно связано с отображением того же порядкового рейтинга предпочтений. Однако я был бы рад узнать больше о проблемах, связанных с кардинальной полезностью. VU
EM23
3

После обмена с ОП в моем другом ответе давайте немного поработаем с его подходом.

Мы имеем дискретную случайную величину с конечным носителем, Х = { х 1 , . , , , Х к } , и вероятность того, функция масс (PMF), Pr ( Х = х я ) = р я , я = 1 , . , , , кXИксзнак равно{Икс1,,,,,ИксК}Pr(Иксзнак равноИкся)знак равнопя,язнак равно1,,,,,К

Значения в поддержке также входы в вещественнозначной кардинальном функцию полезности, U ( х я ) > 0Икс . Затем мы рассмотрим нормированную функцию полезностиU(Икся)>0я

(1)вес(Икс):вес(Икся)знак равноU(Икся)Σязнак равно1КU(Икся),язнак равно1,,,,,К

и нам говорят, что

(2)вес(Икся)знак равнопя

вес(Икся)вес(Икся)

вес(Икся)

(3)Е[вес(Икс)]знак равноΣязнак равно1Кпявес(Икся)знак равноΣязнак равно1Кпя2

пяΣязнак равно1Кпязнак равно1

(4)argminЕ[вес(Икс)]знак равноп*:п1знак равноп2знак равно,,,знак равнопКзнак равно1/К

и мы получили общий результат:

Икс

вес(Икс) Е[вес(Икс)]знак равно1/К

вес(Икс)

Но у меня сложилось впечатление, что это не то, что имеет в виду ФП. Скорее, он рассматривает энтропию Шеннона как метрику, которая имеет некоторые желательные алгебраические свойства и, возможно, может компактно измерить значимым образом что-то интересное.

Это было сделано ранее в экономике, особенно в промышленной организации, где были построены индексы концентрации рынка («степень конкуренции / монополистическая структура рынка»). Отмечу два, которые выглядят здесь особенно актуально.

Nsя

ЧАСзнак равноΣязнак равно1Nsя2

вес(Икс)

резнак равно-Σязнак равно1Nsяперsя

Encaoua, D. & Jacquemin, A. (1980). Степень монополии, показатели концентрации и угрозы въезда. Международный экономический обзор, 87-105. обеспечивают аксиоматический вывод «допустимых» индексов концентрации, т.е. они определяют свойства, которыми должен обладать такой индекс. Поскольку их подход является абстрактным, я полагаю, что он может быть полезен для того, что ФП хочет изучить и придать смысл.

Алекос Пападопулос
источник
1

vзнак равноv*2-0,5

Таким образом, вам необходимо сначала предоставить значимую шкалу отношения к вашей полезности. Один из способов сделать это - дать интерпретацию естественному уровню полезности 0. Без этой спецификации энтропия не имеет смысла.

HRSE
источник