В определении совместно типичных множеств (в «Элементах теории информации», гл. 7.6, с. 195) мы используем
пр(хп)=П п я = 1 р(хя)
в качестве эмпирической энтропии в качестве -sequence с . Я никогда не сталкивался с этой терминологией раньше. Это нигде не определено явно согласно индексу книги.
Мой вопрос в основном таков: почему эмпирическая энтропия отсутствует где - эмпирическое распределение?р ( х )
Каковы наиболее интересные различия и сходства между этими двумя формулами? (с точки зрения свойств они разделяют / не разделяют).
Ответы:
Если данные имеют вид , то есть -последовательность из выборочного пространства X , вероятности эмпирических точек составляют: для . Здесь - единица, если и ноль в противном случае. Таким образом, - это относительная частота в наблюдаемой последовательности. Энтропии распределения вероятностей задается эмпирической точки вероятностей п р ( х ) = 1ИксN= х1… ХN N Икс х∈Хδх(хя)хя=х р (х)хН (
источник
Энтропия определяется для вероятностных распределений. Когда у вас нет данных, а есть только данные, и вы подключаете наивный оценщик распределения вероятностей, вы получаете эмпирическую энтропию. Это проще всего для дискретных (полиномиальных) распределений, как показано в другом ответе, но также может быть сделано для других распределений с помощью биннинга и т. Д.
Проблема с эмпирической энтропией состоит в том, что она смещена для небольших выборок. Наивная оценка распределения вероятностей показывает дополнительное изменение из-за шума выборки. Конечно, можно использовать лучшую оценку, например, подходящий априорный показатель для полиномиальных параметров, но получить его по-настоящему беспристрастно непросто.
Вышесказанное относится и к условным распределениям. Кроме того, все относительно биннинга (или ядра), так что у вас действительно есть своего рода дифференциальная энтропия.
источник