Почему softmax используется для представления распределения вероятностей?

10

В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?

ШАШАНК ГУПТА
источник

Ответы:

7

С точки зрения оптимизации он обладает некоторыми хорошими свойствами с точки зрения дифференцируемости. Для многих проблем машинного обучения это хорошо подходит для классификации 1-из-N.

С точки зрения глубокого обучения. Можно также утверждать, что теоретически использование глубокой сети с классификатором softmax сверху может представлять любую функцию вероятности N-класса в пространстве признаков, поскольку MLP обладают свойством универсальной аппроксимации .

Инди AI
источник
1
Таким образом, главная причина популярности Softmax - это отличительные свойства дифференциации, которые полезны в условиях обучения на основе градиента. Вот так, верно?
ШАШАНК ГУПТА
Да, по-моему, в любом случае. Softmax прост с хорошими производными и привлекателен для обучения на основе градиента. Согласитесь со всем, что вы сказали.
Инди AI
Вы можете рассматривать softmax как функцию вероятности масса / плотность функции, которую вы собираетесь оптимизировать. На мой взгляд, softmax - это просто удобный способ моделирования функции вероятности масса / плотность.
Чарльз Чоу
3

Softmax также является обобщением логистической сигмовидной функции и, следовательно, несет свойства сигмовидной кишки, такие как легкость дифференциации и нахождение в диапазоне 0-1. Выходные данные логистической сигмоидальной функции также находятся между 0 и 1 и, следовательно, естественно являются подходящим выбором для представления вероятности. Его производная также оценивается с точки зрения его собственной продукции. Однако, если ваша функция имеет выходной вектор, вам нужно использовать функцию Softmax, чтобы получить распределение вероятностей по выходному вектору. Есть некоторые другие преимущества использования Softmax, о которых упоминал инди-AI, хотя это не обязательно имеет отношение к теории универсального приближения, поскольку Softmax не является функцией, используемой только для нейронных сетей.

Ссылки

эмир
источник