Я понимаю, что, учитывая набор из независимых наблюдений максимального правдоподобия оценщик (или, что эквивалентно, карта с плоской / равномерной до) , который идентифицирует параметров \ mathbf {θ} , которые производят распределение модели P_ {модель} \ слева (\, \ cdot \,; \ mathbf {θ} \ right), который лучше всего соответствует этим наблюдениям, будет
или, более удобно
и посмотрите роль, которую может сыграть в определении функции потерь для многоклассовых глубоких нейронных сетей, в которой соответствует обучаемым параметрам сети (например, и наблюдения являются парами входных активаций и соответствующих правильных меток классов , = { }, взяв
Я не понимаю, как это связано с так называемой «перекрестной энтропией» (векторизованного) правильного вывода и соответствующими выходными активациями сети, , который используется на практике при измерении ошибки / потери во время тренировки , Есть несколько связанных вопросов:
Активации "как вероятности"
Одним из шагов в установлении взаимосвязи между MLE и кросс-энтропией является использование выходных активаций «как будто», они являются вероятностями. Но мне не ясно, что они есть, или, по крайней мере, они .
При расчете ошибки обучения - в частности, при названии ее «кросс-энтропийной потери» - предполагается, что (после нормализации активаций сумма равна 1)
или
так что мы можем написать
и поэтому
Но хотя это, безусловно, делает вероятностью (в той степени, в которой что-либо есть), оно не накладывает никаких ограничений на другие активации.
Можно ли в действительности сказать, что действительно являются PMF? Есть ли что-нибудь, что делает на самом деле не вероятностями (а просто «похожими» на них) )?
Ограничение по категоризации
Вышеупомянутый важный шаг при отождествлении MLE с кросс-энтропией полностью опирается на «одну горячую» структуру которая характеризует (однокомпонентную) проблему обучения в нескольких классах. Любая другая структура для сделает невозможным от к .
Ограничено ли уравнение MLE и минимизации кросс-энтропии случаями, когда являются "горячими"?
Различные вероятности обучения и прогнозирования
Во время предсказания это почти всегда
что приводит к правильному прогнозированию вероятностей, которые отличаются от вероятностей, извлеченных во время обучения, если только это не является достоверно
Надежно ли это когда-нибудь? Вероятно ли это хотя бы приблизительно верно? Или есть какой-то другой аргумент, который оправдывает это уравнение значения изученной активации в позиции метки с вероятностью того, что там происходит максимальное значение изученных активаций?
Энтропия и теория информации
Даже если предположить, что вышеупомянутые проблемы решены и активации являются действительными PMF (или могут быть осмысленно рассматриваться как таковые), так что роль, которую играет кросс-энтропия в вычислениях вызывает проблем, неясно, мне, почему полезно или полезно говорить об энтропии , поскольку энтропия Шенона применяется к определенному вид кодирования , который не используется для обучения сети.
Какую роль играет теоретико-информационная энтропия в интерпретации функции стоимости, в отличие от простого предоставления инструмента (в форме кросс-энтропии) для его вычисления (которое соответствует MLE)?
softmax_cross_entropy_with_logits
: они рассчитывают и, следовательно, который определяет сеть, «предназначенную» для создания вероятностей (по крайней мере, в месте расположения метки). Нет?Я отвечу с несколько более общей точки зрения относительно характера того, как, когда и почему мы можем рассматривать выходные данные NN как распределения вероятностей.
В том смысле, что softmax приводит к тому, что выходные данные суммируются с 1 и также являются неотрицательными, выходные данные сети представляют собой дискретное распределение вероятностей по классам или, по крайней мере, могут интерпретироваться как таковые. Следовательно, совершенно разумно говорить о кросс-энтропиях и максимальных вероятностях.
Тем не менее, я думаю, что вы видите (и это правильно), что выходные «вероятности» могут не иметь ничего общего с реальной вероятностью правильности . Это хорошо известная проблема в ML, называемая калибровкой . Например, если ваш классификатор собак и кошек говорит , то вы ожидаете, что если вы взяли набор примеров всех из которых , тогда примерно 30% входных данных будут ошибочно классифицированы (так как они были уверены только на 70%).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Однако, оказывается, что современные методы обучения не навязывают это вообще! Посмотрите Guo и др., О калибровке современных нейронных сетей, чтобы увидеть некоторые обсуждения этого.
Другими словами, «вероятность» вывода из softmax вполне может не иметь ничего общего с фактической достоверностью модели. И это не удивительно: мы просто хотим максимизировать нашу точность, и каждый входной пример имеет вероятность 1 быть его целевым классом. Существует мало стимулов для модели, чтобы получить это право. Если не нужно оценивать неопределенность, то зачем это нужно? Кросс-энтропия не устраняет эту проблему; на самом деле, вы говорите, чтобы каждый раз переходил к дельта-функции!
Много недавних работ по Байесовским нейронным сетям пытаются исправить эту проблему. Такие модели используют распределение по параметрам с учетом данных , которые можно интегрировать для получения фактического распределения вероятности . Это помогает гарантировать полезные измерения неопределенности и лучшую калибровку. Тем не менее, это более проблематично в вычислительном отношении.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
Надеюсь, я не поняла ваш вопрос!
источник
Нейронные сети с прямой связью аппроксимируют истинные классовые вероятности при надлежащем обучении.
В 1991 году Ричард и Липпманн доказали, что нейронные сети с прямой связью приближаются к вероятностям апостериорных классов, когда обучаются с {0,1} шаблонами целевых показателей класса [ Richard MD, & Lippmann RP (1991). Классификаторы нейронной сети оценивают байесовские апостериорные вероятности. Нейронные вычисления, 3, 461–483. ]. В своей линии доказательств они используют нейронные сети прямой связи с одним скрытым слоем.
В математической аннотации Duda & Hart [ Duda RO & Hart PE (1973): классификация образов и анализ сцен, Wiley ] определите распределения признаков, предоставляемые в качестве входного вектора для нейронной сети прямой связи, как , где, например, вектор данных равен , для задачи классификации с 4 признаками-переменными. Индекс указывает возможные классов, .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
Классификатор нейронной сети с прямой связью изучает апостериорные вероятности при обучении градиентным спуском. Например, требуемый шаблон вывода должен быть для задачи классификации двух классов. Нейронная сеть с прямой связью имеет один выходной узел на класс. Вектор указывает, что наблюдаемый признак-вектор принадлежит 2-му классу.P^(ωi∣x) o=(0,1) (0,1)
источник
Логарифмическая вероятность не связана напрямую с энтропией в контексте вашего вопроса. Сходство поверхностно: оба имеют суммы логарифмов вероятностных величин.
Логарифм в логарифмическом правдоподобии (MLE) выполняется исключительно по причинам численного расчета. Произведение вероятностей может быть очень маленьким, особенно если ваша выборка велика. Тогда диапазон вероятностей переходит от 1 к исчезающе малой стоимости продукта. Когда вы получаете журнал, продукт становится суммой, а функция журнала сжимает диапазон значений в меньший, более управляемый домен. Логарифм является монотонной функцией, поэтому максимальное (минимальное) логарифмическое правдоподобие даст тот же ответ самой вероятности. Следовательно, наличие лог в выражении MLE не важно в математическом смысле, а просто вопрос удобства.
Наличие логарифмической функции в энтропии является более существенным и имеет свои корни в статистической механике, отрасли физики. Это связано с распределением Больцмана , которое используется в теории газов. Например, вы можете определить давление воздуха как функцию высоты над уровнем моря.
источник