Я только начал изучать статистику и моделирование вещей. В настоящее время я понимаю, что мы используем MLE, чтобы оценить лучшие параметры для модели. Однако, когда я пытаюсь понять, как работают нейронные сети, кажется, что они обычно используют другой подход для оценки параметров. Почему мы не используем MLE или вообще возможно использовать MLE?
В задачах классификации максимизация вероятности является наиболее распространенным способом обучения нейронной сети (как контролируемые, так и неконтролируемые модели).
На практике мы обычно сводим к минимуму отрицательное логарифмическое правдоподобие (эквивалент MLE). Единственное ограничение для использования отрицательного логарифмического правдоподобия - наличие выходного слоя, который можно интерпретировать как распределение вероятностей. Для этого обычно используется выходной слой softmax. Обратите внимание, что в сообществе нейронных сетей отрицательное логарифмическое правдоподобие иногда называют кросс-энтропией. Конечно, можно добавить термины регуляризации (и иногда их можно интерпретировать как предварительные распределения по параметрам, в этом случае мы ищем максимальный апостериорный ( MAP )).
источник