Почему softmax используется для представления распределения вероятностей?

10

В литературе по машинному обучению для представления распределения вероятностей часто используется функция softmax. Есть причина для этого? Почему не используется другая функция?

machine-learning distributions softmax ШАШАНК ГУПТА
источник

7

С точки зрения оптимизации он обладает некоторыми хорошими свойствами с точки зрения дифференцируемости. Для многих проблем машинного обучения это хорошо подходит для классификации 1-из-N.

С точки зрения глубокого обучения. Можно также утверждать, что теоретически использование глубокой сети с классификатором softmax сверху может представлять любую функцию вероятности N-класса в пространстве признаков, поскольку MLP обладают свойством универсальной аппроксимации .

Инди AI
источник

1

Таким образом, главная причина популярности Softmax - это отличительные свойства дифференциации, которые полезны в условиях обучения на основе градиента. Вот так, верно?

ШАШАНК ГУПТА

Да, по-моему, в любом случае. Softmax прост с хорошими производными и привлекателен для обучения на основе градиента. Согласитесь со всем, что вы сказали.

Инди AI

Вы можете рассматривать softmax как функцию вероятности масса / плотность функции, которую вы собираетесь оптимизировать. На мой взгляд, softmax - это просто удобный способ моделирования функции вероятности масса / плотность.

Чарльз Чоу

3

Softmax также является обобщением логистической сигмовидной функции и, следовательно, несет свойства сигмовидной кишки, такие как легкость дифференциации и нахождение в диапазоне 0-1. Выходные данные логистической сигмоидальной функции также находятся между 0 и 1 и, следовательно, естественно являются подходящим выбором для представления вероятности. Его производная также оценивается с точки зрения его собственной продукции. Однако, если ваша функция имеет выходной вектор, вам нужно использовать функцию Softmax, чтобы получить распределение вероятностей по выходному вектору. Есть некоторые другие преимущества использования Softmax, о которых упоминал инди-AI, хотя это не обязательно имеет отношение к теории универсального приближения, поскольку Softmax не является функцией, используемой только для нейронных сетей.

Ссылки

Логистическая функция

Функция Softmax

Легкость дифференциации на Softmax

Легкость дифференциации сигмовидной кишки

эмир
источник

Почему softmax используется для представления распределения вероятностей?

Ответы: