Почему среднеквадратическая ошибка является перекрестной энтропией между эмпирическим распределением и гауссовой моделью?

28

В 5.5 « Глубокое обучение» (Йен Гудфеллоу, Йошуа Бенжио и Аарон Курвилль) говорится, что

Любая потеря, состоящая из отрицательного логарифмического правдоподобия, является кросс-энтропией между эмпирическим распределением, определенным обучающим набором, и распределением вероятности, определенным моделью. Например, среднеквадратическая ошибка - это кросс-энтропия между эмпирическим распределением и гауссовой моделью.

Я не могу понять, почему они эквивалентны, и авторы не расширяют суть.

Муфей Ли
источник

Ответы:

32

Пусть данные будут x=(x1,,xn) . Написать F(x) для эмпирического распределения. По определению для любой функции f ,

EF(x)[f(X)]=1ni=1nf(xi).

Пусть модель имеет плотность где определена на носителе модели. Кросс-энтропии из и определяется какM f F ( x ) Mef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(Икс)[е(Икс)]знак равно-1NΣязнак равно1Nе(Икся),

Предполагая, что - простая случайная выборка, ее отрицательная логарифмическая вероятностьИкс

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

в силу свойств логарифмов (они переводят продукты в суммы). Выражение является константным кратным выражением . Поскольку функции потерь используются в статистике только путем их сравнения, нет разницы, что одна (положительная) константа умножается на другую. Именно в этом смысле отрицательная логарифмическая вероятность "является" кросс-энтропией в цитате.n ( 1 )(2)n(1)


Требуется немного больше воображения, чтобы оправдать второе утверждение цитаты. Связь с квадратом ошибки очевидна, потому что для «гауссовой модели», которая предсказывает значения в точках , значение в любой такой точке равноx fp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

которая является квадратом ошибки но масштабируется на и сдвигается функцией . Один из способов сделать цитату правильной - предположить, что она не учитывает часть "модели" - должен определяться как-то независимо от данных. В этом случае различия между среднеквадратическими ошибками пропорциональны различиям между кросс-энтропиями или логарифмическими правдоподобиями, что делает все три эквивалентными для подбора моделей.1 / ( 2 σ 2 ) σ σ σ(xp(x))2 1/(2σ2)σσσ

(Обычно, однако, подходит как часть процесса моделирования, и в этом случае цитата будет не совсем правильной.)σ=σ(x)

Whuber
источник
1
+1 с двумя предложениями - можно использовать вместо чтобы избежать путаницы с . Во-вторых, большинство оценок будут . Когда вы подключаете это и добавляете это, вы получаете . Аналогично формуле типа AIC ...г()е()F()σ2КΣязнак равно1N(Икся-п(Икся))2-12журнал[Σязнак равно1N(Икся-п(Икся))2]+час(К)
вероятностная
@probabilityislogic Я выбираю пару и , потому что они действительно представляют собой тесно связанную с ней величину. Fе
whuber
Привет, я думаю, что это применимо только к линейному распределению. Я думаю, что в задачах нелинейного распределения мы все еще можем использовать MSE как функцию стоимости, верно?
Лев Лай
5

Для читателей книги Deep Learning я хотел бы добавить к превосходному принятому ответу, что авторы подробно объясняют свое утверждение в разделе 5.5.1, а именно : Пример: линейная регрессия как максимальное правдоподобие .

Там они перечисляют точно ограничение, упомянутое в принятом ответе:

п(Y|Икс)знак равноN(Y;Y^(Икс;вес),σ2)Y^(Икс;вес)σ2

п(Y|Икс)

Килиан Батцнер
источник