В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?
machine-learning
distributions
softmax
ШАШАНК ГУПТА
источник
источник
Softmax также является обобщением логистической сигмовидной функции и, следовательно, несет свойства сигмовидной кишки, такие как легкость дифференциации и нахождение в диапазоне 0-1. Выходные данные логистической сигмоидальной функции также находятся между 0 и 1 и, следовательно, естественно являются подходящим выбором для представления вероятности. Его производная также оценивается с точки зрения его собственной продукции. Однако, если ваша функция имеет выходной вектор, вам нужно использовать функцию Softmax, чтобы получить распределение вероятностей по выходному вектору. Есть некоторые другие преимущества использования Softmax, о которых упоминал инди-AI, хотя это не обязательно имеет отношение к теории универсального приближения, поскольку Softmax не является функцией, используемой только для нейронных сетей.
Ссылки
источник