Функция softmax, обычно используемая в нейронных сетях для преобразования действительных чисел в вероятности, является той же самой функцией, что и распределение Больцмана, распределение вероятностей по энергиям для ансамбля частиц в тепловом равновесии при заданной температуре T в термодинамике.
Я вижу некоторые четкие эвристические причины, почему это практично:
- Независимо от того, являются ли входные значения отрицательными, softmax выводит положительные значения, которые в сумме равны единице.
- Это всегда дифференцируемо, что удобно для обратного распространения.
- У него есть параметр «температура», управляющий тем, насколько мягким должна быть сеть в отношении небольших значений (когда T очень велико, все результаты одинаково вероятны, когда очень мало, выбирается только значение с наибольшим входом).
Используется ли функция Больцмана только как softmax по практическим соображениям, или существует более глубокая связь с термодинамикой / статистической физикой?
Ответы:
Насколько мне известно, нет более глубокой причины, за исключением того факта, что многие люди, которые приняли ANN за пределы стадии персептрона, были физиками.
Помимо упомянутых преимуществ, этот конкретный выбор имеет больше преимуществ. Как уже упоминалось, он имеет один параметр, который определяет поведение вывода. Что в свою очередь может быть оптимизировано или настроено само по себе.
Короче говоря, это очень удобная и хорошо известная функция, которая выполняет своего рода «регуляризацию» в том смысле, что даже самые большие входные значения ограничены.
Конечно, есть много других возможных функций, которые отвечают тем же требованиям, но они менее известны в мире физики. И в большинстве случаев их сложнее использовать.
источник
функция softmax также используется в моделировании дискретного выбора, она аналогична модели logit, если предположить, что есть функция полезности, связанная с каждым классом, а функция полезности равна выходу нейронной сети + термин ошибки после Гамбеля. распределение, вероятность принадлежности к классу равна функции softmax с нейронной сетью в качестве входных данных. См .: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf.
Существуют альтернативы логит-модели, такие как пробит-модель, где предполагается, что погрешность соответствует стандартному нормальному распределению, что является лучшим предположением. однако, вероятность будет трудноразрешимой и требует больших вычислительных затрат, поэтому обычно не используется в нейронной сети.
источник