Что такое эмпирическая энтропия?

19

В определении совместно типичных множеств (в «Элементах теории информации», гл. 7.6, с. 195) мы используем

пр(хп)=П п я = 1 р(хя)

-1Nжурналп(ИксN)
в качестве эмпирической энтропии в качестве -sequence с . Я никогда не сталкивался с этой терминологией раньше. Это нигде не определено явно согласно индексу книги.Nп(ИксN)знак равноΠязнак равно1Nп(Икся)

Мой вопрос в основном таков: почему эмпирическая энтропия отсутствует где - эмпирическое распределение?р ( х )-ΣИксп^(Икс)журнал(п^(Икс))п^(Икс)

Каковы наиболее интересные различия и сходства между этими двумя формулами? (с точки зрения свойств они разделяют / не разделяют).

blubb
источник
Разве два выражения не алгебраически равны?
whuber
1
@whuber: Нет, я думаю, что это разные количества с разными целями. Обратите внимание, что первая использует истинную меру предполагаемую известным априори. Второго нет. п
кардинал
3
Первый касается накопления энтропии с течением времени и ее сравнения с истинной энтропией системы. SLLN и CLT много рассказывают о том, как они себя ведут. Второе касается оценки энтропии по данным, и некоторые из ее свойств также могут быть получены с помощью тех же двух инструментов, которые только что упомянуты. Но, в то время как первое объективно, второе не под любым . Я могу заполнить некоторые детали, если это будет полезно. п
кардинал
1
@cardinal: Если бы вы предоставили приведенный выше комментарий в качестве ответа (возможно, также объясните, что такое SLLN и CLT? - Я не знаю их), я бы с удовольствием поднял голосование ...
blubb
Хорошо, я постараюсь опубликовать больше позже. Тем временем, SLLN = "Сильный закон больших чисел" и CLT = "Центральная предельная теорема". Это довольно стандартные сокращения, с которыми вы, вероятно, столкнетесь снова. Приветствия. :)
кардинал

Ответы:

16

Если данные имеют вид , то есть -последовательность из выборочного пространства X , вероятности эмпирических точек составляют: для . Здесь - единица, если и ноль в противном случае. Таким образом, - это относительная частота в наблюдаемой последовательности. Энтропии распределения вероятностей задается эмпирической точки вероятностей п р ( х ) = 1ИксNзнак равноИкс1...ИксNNИксхХδх(хя)хя=х р (х)хН (

п^(Икс)знак равно1N|{я|Иксязнак равноИкс}|знак равно1NΣязнак равно1NδИкс(Икся)
ИксИксδИкс(Икся)Иксязнак равноИксп^(Икс)ИксΣх Х δх(хя)лог р (х)=лог р (хя). Н( р )=-1
ЧАС(п^)знак равно-ΣИксИксп^(Икс)журналп^(Икс)знак равно-ΣИксИкс1NΣязнак равно1NδИкс(Икся)журналп^(Икс)знак равно-1NΣязнак равно1Nжурналп^(Икся),
Последняя идентичность следует, поменяв две суммы и отметив, что Отсюда видно, что с и используя терминологию из вопроса, это эмпирическая энтропия эмпирического распределения вероятностей . Как отметил @cardinal в комментарии,
ΣИксИксδИкс(Икся)журналп^(Икс)знак равножурналп^(Икся),
ЧАС(п^)знак равно-1Nжурналп^(ИксN)
п^(ИксN)знак равноΠязнак равно1Nп^(Икся)-1Nжурналп(ИксN)является эмпирической энтропией данного распределения вероятностей с точечными вероятностями .п
NRH
источник
3
(+1) Это дает хорошую иллюстрацию того, что Ковер и Томас называют «странным самоссылочным персонажем» энтропии. Тем не менее, я не уверен, что ответ на самом деле решает (напрямую) очевидные проблемы ОП. :)
кардинал
@ Cardinal, я знаю, и ответ был просто длинным комментарием, чтобы подчеркнуть эту особенность. Я не хотел повторять ваши пункты.
NRH
1
Вы не должны чувствовать себя плохо или не стесняйтесь оставлять свой собственный ответ, включая расширение моих комментариев или комментариев других. Я особенно медленно и плохо пишу ответы и никогда не буду обижаться, если вы или другие публикуете ответы, которые включают аспекты вещей, которые я, возможно, ранее кратко прокомментировал. Наоборот, на самом деле. Приветствия.
кардинал
7

Энтропия определяется для вероятностных распределений. Когда у вас нет данных, а есть только данные, и вы подключаете наивный оценщик распределения вероятностей, вы получаете эмпирическую энтропию. Это проще всего для дискретных (полиномиальных) распределений, как показано в другом ответе, но также может быть сделано для других распределений с помощью биннинга и т. Д.

Проблема с эмпирической энтропией состоит в том, что она смещена для небольших выборок. Наивная оценка распределения вероятностей показывает дополнительное изменение из-за шума выборки. Конечно, можно использовать лучшую оценку, например, подходящий априорный показатель для полиномиальных параметров, но получить его по-настоящему беспристрастно непросто.

Вышесказанное относится и к условным распределениям. Кроме того, все относительно биннинга (или ядра), так что у вас действительно есть своего рода дифференциальная энтропия.

scellus
источник
3
Мы должны быть осторожны с тем, что мы называем здесь эмпирической энтропией . Обратите внимание, что оценщик подключаемого модуля всегда имеет низкое смещение для всех размеров выборки, хотя смещение будет уменьшаться по мере увеличения размера выборки. Получить объективную оценку энтропии не только сложно , но и невозможно в общем случае. В последние несколько лет в этой области проводились довольно интенсивные исследования, особенно в литературе по нейронауке. На самом деле существует множество отрицательных результатов.
кардинал