Не ссылаясь на источники, Википедия определяет кросс-энтропию дискретных распределений и Q как
Кто первым начал использовать это количество? И кто изобрел этот термин? Я посмотрел в:
JE Shore и RW Johnson, "Аксиоматический вывод принципа максимальной энтропии и принципа минимальной кросс-энтропии", Теория информации, IEEE Transactions on, vol. 26, нет 1, с. 26-37, январь 1980 г.
Я следовал за их введением в
Wehrl А., Общие свойства энтропии. Обзоры современной физики. 50, нет 2, с. 221-260, апрель 1978 г.
который никогда не использует термин.
Ни один не делает
С. Кульбек и Р. Лейблер, "Об информации и достаточности", Анналы математической статистики, вып. 22, нет 1, с. 79-86, 1951.
Я заглянул в
TM Cover и JA Thomas, Элементы теории информации (серия Wiley по телекоммуникациям и обработке сигналов). Wiley-Interscience, 2006.
и
И. Гуд, "Максимальная энтропия для формулировки гипотез, особенно для многомерных таблиц сопряженности", "Анналы математической статистики", вып. 34, нет 3, с. 911-934, 1963.
но обе статьи определяют перекрестную энтропию как синоним KL-дивергенции.
Оригинальная статья
Шеннон, "Математическая теория коммуникации", технический журнал Bell system, vol. 27, 1948.
Не упоминает перекрестную энтропию (и имеет странное определение «относительной энтропии»: «Отношение энтропии источника к максимальному значению, которое он может иметь, в то же время ограничиваясь теми же символами»).
Наконец, я просмотрел несколько старых книг и статей Tribus.
Кто-нибудь знает, как называется приведенное выше уравнение и кто его придумал, или имеет хорошее представление о нем?
Благодаря предложению @ Itamar, я нашел упоминание в:
И. Д. Гуд, «Некоторые термины и обозначения в теории информации», Труды IEE - Часть C: Монографии, вып. 103, нет. 3, с. 200-204, март 1956 г.
Для меня все еще было бы очень полезно найти хорошее представление о кросс-энтропии.
источник
Спасибо за это - хорошее резюме справочной литературы. Статья Шора и Джонсона 1980 года в IEEE - хорошее начало, но указатель @ itamar на монографию Good 1956 года еще лучше. Концепция, кажется, взята из работы Шеннона, причем примечание AMS Kullback & Leibler 1951 года является источником текущего использования этого термина. Поскольку происхождение термина «перекрестная энтропия» относится к искусственным нейронным сетям, этот термин используется в статье «Наука», представленной в 1994 г. и опубликованной в 1995 г. Г. Э. Хинтоном, П. Даяном, Б. Дж. Фреем и Р. М. Нилом в который есть раннее использование термина «машина Хемгольца» - возможно, первый. URL для копирования: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf В этой статье «Алгоритм пробуждения-сна для неконтролируемых нейронных сетей» в примечании к уравнению № 5 говорится: «Когда существует много альтернативных способов описания входного вектора, можно разработать схему стохастического кодирования, которая использует преимущества энтропия между альтернативными описаниями [1]. Тогда стоимость равна: «(см. статью для уравнения № 5)« Тогда второй член - это энтропия распределения, которое веса распознавания присваивают различным альтернативным представлениям ». Позже в статье уравнение № 5 переписывается как уравнение № 8, а последний член описывается как расхождение Кульбака-Лейблера между начальным распределением вероятности и последующим распределением вероятности. В документе говорится: «Таким образом, для двух порождающих моделей, которые присваивают равную вероятность d, Эта статья все еще описывает процесс минимизации для этого конкретного алгоритма как минимизацию расхождения Кульбака-Лейблера, но похоже, что это могло быть, когда термин «энтропия через альтернативные описания» был сокращен до просто «кросс-энтропии». Для числового примера перекрестной энтропии, используя TensorFlow, смотрите публикацию здесь, это полезно: Эта статья все еще описывает процесс минимизации для этого конкретного алгоритма как минимизацию расхождения Кульбака-Лейблера, но похоже, что это могло быть, когда термин «энтропия через альтернативные описания» был сокращен до просто «кросс-энтропии». Для числового примера перекрестной энтропии, используя TensorFlow, смотрите публикацию здесь, это полезно: /programming/41990250/what-is-cross-entropy Обратите внимание, что решение CE = 0,47965 получается просто путем натурального логарифма вероятности 0,619. В приведенном выше примере использование «одного горячего» кодирования означает, что две другие начальные и апостериорные вероятности игнорируются из-за умножения на нулевую начальную вероятность в суммировании для кросс-энтропии.
источник