Пусть данные будут x=(x1,…,xn) . Написать F(x) для эмпирического распределения. По определению для любой функции f ,
EF(x)[f(X)]=1n∑i=1nf(xi).
Пусть модель имеет плотность где определена на носителе модели. Кросс-энтропии из и определяется какM f F ( x ) Mef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Предполагая, что - простая случайная выборка, ее отрицательная логарифмическая вероятностьИкс
- журнал( L ( x ) ) = - logΠi=1nef(xi)=−∑i=1nf(xi)(2)
в силу свойств логарифмов (они переводят продукты в суммы). Выражение является константным кратным выражением . Поскольку функции потерь используются в статистике только путем их сравнения, нет разницы, что одна (положительная) константа умножается на другую. Именно в этом смысле отрицательная логарифмическая вероятность "является" кросс-энтропией в цитате.n ( 1 )(2)n(1)
Требуется немного больше воображения, чтобы оправдать второе утверждение цитаты. Связь с квадратом ошибки очевидна, потому что для «гауссовой модели», которая предсказывает значения в точках , значение в любой такой точке равноx fp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
которая является квадратом ошибки но масштабируется на и сдвигается функцией . Один из способов сделать цитату правильной - предположить, что она не учитывает часть "модели" - должен определяться как-то независимо от данных. В этом случае различия между среднеквадратическими ошибками пропорциональны различиям между кросс-энтропиями или логарифмическими правдоподобиями, что делает все три эквивалентными для подбора моделей.1 / ( 2 σ 2 ) σ σ σ(x−p(x))2 1/(2σ2)σσσ
(Обычно, однако, подходит как часть процесса моделирования, и в этом случае цитата будет не совсем правильной.)σ=σ(x)
Для читателей книги Deep Learning я хотел бы добавить к превосходному принятому ответу, что авторы подробно объясняют свое утверждение в разделе 5.5.1, а именно : Пример: линейная регрессия как максимальное правдоподобие .
Там они перечисляют точно ограничение, упомянутое в принятом ответе:
источник