Энтропия Шеннона является отрицательной суммой вероятностей каждого результата, умноженной на логарифм вероятностей для каждого результата. Какой цели служит логарифм в этом уравнении?
Интуитивно понятный или визуальный ответ (в отличие от глубоко математического ответа) получит бонусные баллы!
entropy
intuition
sequence-analysis
histelheim
источник
источник
Ответы:
Энтропия Шеннона - это величина, удовлетворяющая множеству отношений.
Короче говоря, логарифм состоит в том, чтобы заставить его расти линейно с размером системы и «вести себя как информация».
Первый означает , что энтропия бросании монеты раз в раз энтропия бросании монеты:n n
Или просто посмотреть, как это работает при подбрасывании двух разных монет (возможно, нечестно - с головами с вероятностью и хвостами для первой монеты и и для второй) поэтому свойства логарифма (логарифма произведения - это сумма логарифмов) имеют решающее значение.p1 p2 q1 q2 −∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
Но и энтропия Реньи обладает этим свойством (энтропия параметризована вещественным числом , которое становится энтропией Шеннона для ).α α→1
Однако здесь возникает второе свойство - энтропия Шеннона особенная, так как она связана с информацией. Чтобы получить интуитивное ощущение, вы можете посмотреть на как среднее значение .H=∑ipilog(1pi) log(1/p)
Мы можем назвать информацией. Почему? Потому что если все события происходят с вероятностью , это означает, что есть событий. Чтобы узнать, какое событие произошло, нам нужно использовать биты (каждый бит удваивает количество событий, которые мы можем отличить друг от друга).log(1/p) p 1/p log(1/p)
Вы можете чувствовать беспокойство: «Хорошо, если все события имеют одинаковую вероятность, имеет смысл использовать в качестве меры информации. Но если это не так, почему усреднение информации имеет какой-то смысл?» - и это естественная проблема.log(1/p)
Но оказывается, что это имеет смысл - источник Шеннона кодирования теоремы говорит о том , что строка с uncorrelted букв с вероятностями длиной не может быть сжат (в среднем) в двоичную строку короче , чем . И в самом деле, мы можем использовать кодирование Хаффмана для сжатия строки и очень близко к .{pi}i n nH n HnH
Смотрите также:
источник
Это то же самое, что и другие ответы, но я думаю, что лучший способ объяснить это - посмотреть, что говорит Шеннон в своей оригинальной статье.
Источник: Шеннон, Математическая теория коммуникации (1948) [ pdf ].
Обратите внимание, что энтропия Шеннона совпадает с энтропией Гиббса статистической механики, и есть также объяснение, почему логарифм происходит в энтропии Гиббса. В статистической механике энтропия считается мерой числа возможных состояний в которых может быть найдена система. Причина, по которой лучше, чем заключается в том, что обычно является очень быстро растущей функцией своих аргументов и поэтому не может быть с пользой аппроксимирована расширением Тейлора, тогда как может быть. (Я не знаю, было ли это первоначальной мотивацией для регистрации, но это объясняется во многих вводных книгах по физике.)log Ω Ω Ω log ΩΩ logΩ Ω Ω logΩ
источник
Другой способ взглянуть на это с алгоритмической точки зрения. Представьте , что вы собираетесь угадать число , что только у вас информация , что это число в интервале . В этой ситуации оптимальным алгоритмом угадывания числа является простой алгоритм двоичного поиска , который находит в порядке . Эта формула интуитивно говорит, сколько вопросов вам нужно задать, чтобы узнать, что такое . Например, если , вам нужно задать максимум 3 вопроса, чтобы найти неизвестный .1 ≤ x ≤ N x O ( log 2 N ) x N = 8 xx 1≤x≤N x O(log2N) x N=8 x
С точки зрения вероятностной, при объявлении как в равной степени вероятно, будут любые значения в диапазоне , это означает для . Клод Шеннон прекрасно показал, что информационное содержание результата определяется как:1 ≤ x ≤ N p ( x ) = 1 / N 1 ≤ x ≤ N xx 1≤x≤N p(x)=1/N 1≤x≤N x
Причина для основания 2 в логарифме состоит в том, что здесь мы измеряем информацию в битах . Вы также можете принять натуральный логарифм, который измеряет вашу информацию в нац . Например, информационное содержание outcom - это . Это значение точно равно числу шагов в алгоритме двоичного поиска (или числу операторов IF в алгоритме). Поэтому количество вопросов, которые вам нужно выяснить, равно , это именно информационное содержание результата .x=4 h(4)=3 x 4 x=4
Мы также можем проанализировать производительность алгоритма бинарного поиска для любого возможного результата. Один из способов сделать это - узнать ожидаемое количество вопросов для любых значений . Обратите внимание, что количество требуемых вопросов для угадывания значения , как я обсуждал выше, равно . Следовательно, ожидаемое количество вопросов для любого по определению равно:x x h(x) x
Ожидаемое количество вопросов точно такое же, как энтропия ансамбля , или короче энтропия. Таким образом, мы можем сделать вывод, что энтропия количественно определяет ожидаемое (или среднее) число вопросов, которые нужно задать, чтобы угадать результат, что является вычислительной сложностью алгоритма двоичного поиска.⟨h(x)⟩ H(X) H(X)
источник
Вот неординарное объяснение. Можно сказать, что две книги одного размера содержат вдвое больше информации, чем одна книга, верно? (Считая книгу строкой битов.) Что ж, если у определенного результата есть вероятность P, то вы могли бы сказать, что его информационное содержание о количестве битов, которое вам нужно выписать 1 / P. (например, если P = 1/256, это 8 бит.) Энтропия - это просто среднее значение длины этого информационного бита по всем результатам.
источник
Цель появления в энтропии Шеннона состоит в том, что - единственная функция, удовлетворяющая базовому набору свойств, который, как представляется энтропийная функция .log(pi) log(pi) H(p1,…,pN)
Шеннон предоставил математическое доказательство этого результата, которое было тщательно отобрано и широко принято. Таким образом, цель и значение логарифма в уравнении энтропии самодостаточны в предположениях и доказательствах.
Это нелегко понять, но в конечном итоге это причина появления логарифма.
Я нашел следующие ссылки полезными в дополнение к перечисленным в другом месте:
источник
Резюме:
Потому что он представляет собой среднее общее количество совершенных вопросов, на которые вам нужно получить ответы, чтобы полностью устранить все неопределенности в данных, которые вы еще не видели. Идеальный вопрос с возможными ответами - это тот, который, если ответить, пространство возможностей будет уменьшено в раз.n n
Пример:
Предположим, что я бросил гранный кубик, и вы должны были предсказать его исход. Пространство возможностей . Вы могли бы задать мне такие вопросы, как этот бинарный "результат ?" (ответ либо да, либо нет, т.е. ), и мой ответ может быть «nopies!». Тогда пространство возможностей всего . Так что этот вопрос не очень хороший вопрос.6 6 1 n=2 1
В качестве альтернативы, вы можете задать лучшие вопросы, такие как этот превосходный бинарный вопрос «больше ?», И мой ответ будет «Yeppies!» - тогда бум, пространство возможностей сокращается вдвое! Т.е. осталось всего кандидата (из первоначально 6). Черт, да, чувак.3.5 6/2=3
Теперь предположим, что вы продолжаете рекурсивно задавать больше этих хороших вопросов, пока не дойдете до случая, когда пространство возможностей имеет только возможность, благодаря которой - по определению - не остается двусмысленности (вы знаете ответ).1
Давай сделаем это:
Вы заключаете, что результат должен быть № , и вам нужно было только задать бинарных вопроса. Т.е.6 3 ceil(log2(6))=ceil(2.58)=3
Теперь, очевидно, количество бинарных вопросов всегда является натуральным числом. Так почему же энтропия Шеннона не использует функцию ? Потому что на самом деле выкладывается среднее количество хороших вопросов, которые нужно задать.ceil
Если вы повторите этот эксперимент (написав код Python), вы заметите, что в среднем вам нужно будет задать идеальных бинарных вопросов.2.58
Конечно, если вы задаете бинарные вопросы, вы устанавливаете базу журнала на это. Так что здесь потому что наши вопросы были двоичными. Если вы задаете вопросы, которые ожидают возможных ответов, для базы вы установите вместо , то есть .log2(...) n n 2 logn(...)
Моделирование:
Результаты:
Святой чувак .2.6634≠log2(6)≠2.58
В чем дело? Это почти близко, но не совсем близко, как я надеялся. Это PRNG Питона пытается сказать медленную шутку? Или Шеннон ошибается? Или это - не дай Бог - мое понимание неверно? В любом случае ПОМОГИТЕ. SOS уже чувак.
источник
Предположим, у нас есть отдельный источник информации, который генерирует символы из некоторого конечного алфавита с вероятностями . Шеннон определяет энтропию как меру такую, чтоΩ={ω1,…,ωn} p1,…,pn H(p1,…,pn)
Шеннон доказывает, что единственный удовлетворяющий трем требованиям, имеет вид где соответствует произвольной единице измерения информации. Когда , эта единица является битом .H
источник
Этот вопрос был поднят два года назад, и уже было много удивительных ответов, но я хотел бы добавить свой, который очень мне помог.
Вопрос в том
Логарифм (обычно основанный на 2) из- за неравенства Крафта .
мы можем интуитивно понять это следующим образом: сумма вероятностей всего кода с длиной меньше 1. Из неравенства мы можем получить следующий результат, что для каждой функции длины кода однозначно декодируемого кода существует распределение такой, чтоli Lx P(x)
И, следовательно, и - это вероятность кода с длиной .L(x)=−logP(x) P(x) L(x)
Энтропия Шеннона определяется как средняя длина всего кода. Поскольку вероятность каждого кода с длиной равна , средняя длина (или энтропия Шеннона) равна . P ( x ) - P ( x ) l o g P ( x )L(x) P(x) −P(x)logP(x)
Интуитивная иллюстрация и визуальный ответ (как вам требуется, но более конкретно для неравенства Крафта) артикулируются в этой статье коды дерева, и неравенство Крафта .
источник
Исходя из вашего неприятия уже полученных ответов, я думаю, что то, что вы ищете, является причиной, по которой Шеннон использовал логарифм в своей формуле в первую очередь. Другими словами, философия этого.
Отказ от ответственности : я просто в этой области в течение недели, потому что у меня такой же вопрос, как и у вас . Если у вас есть больше знаний об этом, пожалуйста, дайте мне знать.
У меня есть этот вопрос после прочтения одной из самых важных статей Улановича, « Повышение энтропии: тепловая смерть или вечные гармонии? , Этот параграф объясняет, почему в формуле -log (p) вместо (1-p):
Похоже, что Шеннон выбрал логарифм без причины. Он просто "понюхал", что ему следует использовать логарифм. Почему Ньютон выбрал операцию умножения в своей формуле F = m * a?
Обратите внимание, что в то время он понятия не имел об энтропии :
Итак, мой ответ: нет причин для этого. Он выбрал это, потому что это просто волшебно сработало.
источник
Энтропия определяется как логарифм среднего геометрического коэффициента многочлена, который выражает число состояний, в которых может находиться система:
Логарифмы появляются в формуле после использования факториала в приближении Стирлинга (см. Это объяснение )
источник
Лог получается из функции H, удовлетворяющей определенным естественным требованиям. См. Стр. 3 сек. 2 из этого источника:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
С учетом аксиом, если вы выполняете оптимизацию, вы получаете уникальную (до констант) функцию с журналом в ней.
Все вышеприведенные ответы верны, за исключением того, что они интерпретируют журнал, но не объясняют его источник.
источник
Я предполагаю, что ваш вопрос больше о «значении» этого логарифма и о том, почему каждый компонент вносит вклад в общее значение формулы, а не в простой формализм, показывающий согласованность определения с определенными требованиями.
Идея энтропии Шеннона состоит в том, чтобы оценить информацию о сообщении, посмотрев на его ЧАСТОТУ (т. Е. ) и на ОБЩУЮ (т. ):p(x) −log(p(x))
Первое слагаемое относится к частоте, а - к его общности.p(x) −log(p(x))
С этого момента я буду обсуждать, как ОБЩИЕ свойства влияют на окончательную формулу энтропии.
Таким образом, мы можем определить, как общее (например, дождь / не дождь) или конкретное (например, ligth / avg / heavy / veryHeavy rain) сообщение на основе количества битов, необходимых для его кодирования:log2(x)=number_of_bits_to_encode_the_messages
Теперь сядьте, расслабьтесь и посмотрите, как прекрасно работает энтропия Шеннона: она основана на (разумном) допущении, что сообщения, которые являются более ОБЩАМИ, следовательно, более ЧАСТОТЫ.
Например, я скажу, что идет дождь, если это средний, сильный или очень тяжелый дождь. Таким образом, он предложил закодировать ОБЩИЕ сообщения, основываясь на том, насколько они ЧАСТОТЫ ... и вот вы:
с частота сообщения .N x
Уравнение можно интерпретировать как: редкие сообщения будут иметь более длинную кодировку, потому что они менее общие, поэтому им нужно больше битов для кодирования и они менее информативны. Следовательно, наличие более конкретных и редких сообщений будет способствовать большей энтропии, чем наличие множества общих и частых сообщений.
В окончательной формулировке мы хотим рассмотреть два аспекта. Первая, , заключается в том, что частые сообщения легче прогнозировать, и с этой точки зрения они менее информативны (т.е. более длинное кодирование означает более высокую энтропию). Второй, , заключается в том, что частые сообщения также носят общий характер и с этой точки зрения более информативны (т. Е. Более короткое кодирование означает меньшую энтропию).p(x) −log(p(x))
Самая высокая энтропия - это когда у нас есть система со множеством редких и специфических сообщений Самая низкая энтропия с частыми и общими сообщениями. Между ними у нас есть спектр энтропийно-эквивалентных систем, которые могут иметь как редкие, так и общие сообщения или частые, но специфические сообщения.
источник
Я не думаю, что можно дать вам универсальный «интуитивный» ответ. Я дам вам ответ, который является интуитивно понятным для некоторых людей, таких как физики. Логарифм существует для получения средней энергии системы. Вот подробности.
Шеннон использовал слово « энтропия », потому что он адаптировал концепцию из статистической механики . В статистической механике есть оригинальное распределение имени Больцмана. Интересно, что сейчас это важное распространение в машинном обучении!
Распределение Больцмана можно записать в виде , где являются постоянными, и является энергией системы в государственном пространстве состояний . В классической термодинамике , где - координата и импульс частицы. Это правильная функция вероятности, когда константы выбраны правильно, то есть . Также вам может показаться интересным, что соответствует температуре системы.P=ea−Eb a,b E dV V dV=dpdx x,p a,b ∫VPdV=1 b
Теперь обратите внимание, как , т.е. логарифм вероятности является линейным (пропорциональным) энергии. Теперь вы можете видеть, что следующее выражение, по сути, является ожидаемым значением энергии системы: Это то, что сделал Гиббс.lnP∼E S≡−∫VPlnPdV=<E>
Итак, Шеннон взял эту вещь и назвал ее "энтропией", а мы называем это "энтропией Шеннона". Здесь больше нет энергетической концепции, но, может быть, вы могли бы противодействовать вероятности состояния и назвать это энергией состояния?η=−∑iPilnPi e - P ie−Pi
Это достаточно интуитивно для вас? Это для меня, но я был физиком-теоретиком в прошлой жизни. Кроме того, вы можете перейти на более глубокий уровень интуиции, связавшись с еще более старыми термодинамическими понятиями, такими как температура и работы Больцмана и Клаузиуса.
источник