Softmax против сигмоидальной функции в логистическом классификаторе?

63

От чего зависит выбор функции (Softmax vs Sigmoid) в классификаторе логистики?

Предположим, есть 4 выходных класса. Каждая из вышеприведенных функций дает вероятности того, что каждый класс является правильным выводом. Так какой же взять за классификатор?

machine-learning logistic classification softmax маш
источник

16

Функция softmax - это не что иное, как обобщение сигмовидной кишки, поэтому не совсем понятно, что вы подразумеваете под «softmax против сигмовидной».

dsaxton

2

Это случай сигмовидной кишки. Когда мы используем сигмоид, один класс имеет вероятность а другой имеет вероятность .

\exp (β^{T} x) / (\exp (β^{T} x) + 1)

$\exp(\beta^T x) / (\exp(\beta^T x) + 1)$

1 / (\exp (β^{T} x) + 1)

$1 / (\exp(\beta^T x) + 1)$

dsaxton

3

Реддит постер делает различие, которое я считаю неправильным или, по крайней мере, неуместным. Независимо от того, имеет ли один из классов вес, это просто вопрос сдвига баллов, что никак не влияет на вероятности.

dsaxton

2

Возможный дубликат бинарной и полиномиальной логистической регрессии

Франк Дернонкур

3

«не совсем понятно, что вы подразумеваете под« софтмакс против сигмоида ».« чуть ниже заголовка, есть основная часть вопроса - очень легко пропустить, я знаю. Кроме того, это хороший заголовок, чтобы направлять запросы Google, чтобы они приходили сюда, чтобы точно ответить на вопрос.

Майкл

77

Функция сигмовидной используется для двух классов логистической регрессии, в то время как SoftMax функция используется для мультиклассируют логистической регрессии (он же MaxEnt, полиномиальной логистической регрессии, SoftMax регрессии, максимальной энтропии по классификатору).

В двухклассовой логистической регрессии прогнозируемые вероятности следующие с использованием сигмоидальной функции:

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β_{0} \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = 1 - Pr (Y_{i} = 0) = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta_0 \cdot \mathbf{X}_i}} \, \\ \Pr(Y_i=1) &= 1 - \Pr(Y_i=0) = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \end{align}$

В мультиклассовой логистической регрессии с $K$ классами прогнозируемые вероятности следующие с использованием функции softmax:

\begin{aligned} Pr (Y_{i} = k) & = \frac{e^{β_{k} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=k) &= \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} \, \\ \end{align}$

Можно заметить, что функция softmax является расширением сигмоидальной функции для случая мультикласса, как объяснено ниже. Давайте посмотрим на мультиклассовую логистическую регрессию с классами: $K=2$

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{β_{0} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{0} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{e^{(β_{0} - β_{1}) \cdot X_{i}}}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = \frac{e^{β_{1} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{1} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{1}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i}}{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta \cdot \mathbf{X}_i}} \\ \, \\ \Pr(Y_i=1) &= \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{1}{e^{(\boldsymbol\beta_0-\boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \, \\ \end{align}$

с . Мы видим, что мы получаем те же вероятности, что и в двухклассовой логистической регрессии с использованием сигмоидальной функции. Википедия еще немного расширяется. $\boldsymbol\beta = - (\boldsymbol\beta_0 - \boldsymbol\beta_1)$

Франк Дернонкур
источник

1

Я наивен в этом, но я вижу это много раз β = - (β0 − β1) Что может быть возможным объяснением этого? Насколько я знаю, в сигмоидах β будет вектором. И они, как правило, один для данного пробега. Тогда почему β0 и β1 входят в картину?

Ишан Бхатт

1

@IshanBhatt этот комментарий может помочь.

Том Хейл,

как ни странно, я все еще могу вернуться к мультиклассам, используя только

сигмоид

15

Фактически они эквивалентны в том смысле, что одно может быть преобразовано в другое.

Предположим, что ваши данные представлены вектором произвольной размерности, и вы создали для него двоичный классификатор, используя аффинное преобразование, за которым следует softmax: $\boldsymbol{x}$

(\begin{matrix} z_{0} \\ z_{1} \end{matrix}) = (\begin{matrix} w_{0}^{T} \\ w_{1}^{T} \end{matrix}) x + (\begin{matrix} b_{0} \\ b_{1} \end{matrix}),

$\begin{equation} \begin{pmatrix} z_0 \\ z_1 \end{pmatrix} = \begin{pmatrix} \boldsymbol{w}_0^T \\ \boldsymbol{w}_1^T \end{pmatrix}\boldsymbol{x} + \begin{pmatrix} b_0 \\ b_1 \end{pmatrix}, \end{equation}$

P (C_{i} | x) = softmax (z_{i}) = \frac{e^{z_{i}}}{e^{z_{0}} + e^{z_{1}}}, i \in {0, 1} .

$\begin{equation} P(C_i | \boldsymbol{x}) = \text{softmax}(z_i)=\frac{e^{z_i}}{e^{z_0}+e^{z_1}}, \, \, i \in \{0,1\}. \end{equation}$

Давайте преобразуем его в эквивалентный двоичный классификатор, который использует сигмоид вместо softmax. Прежде всего, мы должны решить, какова вероятность того, что мы хотим, чтобы сигмоид выводил (который может быть для класса или ). Этот выбор абсолютно произвольный, и поэтому я выбираю класс . Тогда мой классификатор будет иметь вид: $C_0$ $C_1$ $C_0$

z^{'} = w^{' T} x + b^{'},

$\begin{equation} z' = \boldsymbol{w}'^T \boldsymbol{x} + b', \end{equation}$

P (C_{0} | x) = σ (z^{'}) = \frac{1}{1 + e^{- z^{'}}},

$\begin{equation} P(C_0 | \boldsymbol{x}) = \sigma(z')=\frac{1}{1+e^{-z'}}, \end{equation}$

P (C_{1} | x) = 1 - σ (z^{'}) .

$\begin{equation} P(C_1 | \boldsymbol{x}) = 1-\sigma(z'). \end{equation}$

Классификаторы эквивалентны, если вероятности одинаковы, поэтому мы должны наложить:

σ (z^{'}) = softmax (z_{0})

$\begin{equation} \sigma(z') = \text{softmax}(z_0) \end{equation}$

Замена , и их выражениями в терминах и и выполнения некоторых простых Алгебраические манипуляции, вы можете проверить, что равенство выше имеет место тогда и только тогда, когда и определены как: $z_0$ $z_1$ $z'$ $\boldsymbol{w}_0,\boldsymbol{w}_1, \boldsymbol{w}', b_0, b_1, b'$ $\boldsymbol{x}$ $\boldsymbol{w}'$ $b'$

w^{'} = w_{0} - w_{1},

$\begin{equation} \boldsymbol{w}' = \boldsymbol{w}_0-\boldsymbol{w}_1, \end{equation}$

b^{'} = b_{0} - b_{1} .

$\begin{equation} b' = b_0-b_1. \end{equation}$

D ...
источник

@null Хорошо, если вы спросите об этом, вы не поняли моего объяснения. Позвольте мне обратиться к вашей конкретной проблеме: если вы скажете, что вы подаете свои данные в сигмовидную кишку, то это должно быть одномерное число, . При подаче его в сигмоид, вы получаете вероятность того, что будет в одном из ваших двух классов, например : . Тогда вероятность того, что находится в равна: . Теперь давайте заменим вашу сигмовидную оболочку на softmax. (Продолжение следует).

x

$x$

x

$x$

C_{0}

$C_0$

P (C_{0} | x) = σ (x)

$P(C_0|x)=σ(x)$

x

$x$

C_{1}

$C_1$

P (C_{1} | x) = 1 - P (C_{0} | x) = σ (x)

$P(C_1|x)=1−P(C_0|x)=σ(x)$

Д ...

(Продолжение). Чтобы применить softmax к задаче классификации с двумя классами, вам необходимо преобразовать одномерные данные в двумерный вектор. Поэтому нам нужно определить наши и . Давайте выберем . Так как должен удовлетворять , мы имеем , поэтому . Теперь у нас есть и . Используя это, вы можете сразу проверить, что .

w_{0}

$w_0$

w_{1}

$w_1$

w_{0} = 1

$w_0=1$

w_{1}

$w_1$

w' = w_{0} - w_{1}

$w′=w_0−w_1$

1 = 1 - w_{1}

$1=1−w_1$

w_{1} = 0

$w_1=0$

z_{0} = w_{0} x = x

$z_0=w_0x=x$

z_{1} = w_{1} x = 0

$z_1=w_1x=0$

σ (x) = softmax (z_{0})

$σ(x)=\text{softmax}(z_0)$

Д ...

Более того, любая комбинация и которая удовлетворяет (то есть ), приведет к точно же результату. Это показывает, что softmax имеет один избыточный параметр. Хотя это может показаться глупым, на самом деле это интересное свойство, поскольку оно позволяет нормализовать параметры , что способствует численной стабильности алгоритма обучения и логического вывода. Но это всего лишь дополнительный комментарий, не важно ответить на ваш вопрос :)

w_{0}

$w_0$

w_{1}

$w_1$

w^{'} = w_{0} - w_{1}

$w'=w_0-w_1$

1 = w_{1} - w_{0}

$1=w_1-w_0$

w_{i}

$w_i$

D ...

Большое спасибо. Я понял. В вашем первом комментарии вероятность вероятно, должна быть . Теперь я понимаю, в чем идея трансформации.

P (C_{1} | x)

$P(C_1|x)$

1 - σ (x)

$1-\sigma(x)$

нуль

Рад, что вы это поняли;) Да, это опечатка, очевидно, она должна быть . Спасибо за указание на это!

P (C_{1} | x) = 1 - σ (x)

$P(C_1|x)=1 - \sigma(x)$

Д ...

8

Я заметил, что люди часто обращаются к этому вопросу при поиске, использовать ли сигмоид против софтмакса в нейронных сетях. Если вы один из тех, кто строит классификатор нейронной сети, вот как решить, применять ли sigmoid или softmax к необработанным выходным значениям из вашей сети:

Если у вас есть проблема классификации с несколькими метками = существует более одного «правильного ответа» = выходы НЕ являются взаимоисключающими, тогда используйте сигмовидную функцию для каждого необработанного выхода независимо. Сигмоид позволит вам иметь высокую вероятность для всех ваших классов, некоторых из них или ни одного из них. Пример: классификация заболеваний по рентгенограмме. Изображение может содержать пневмонию, эмфизему и / или рак, или ничего из этих результатов.
Если у вас есть проблема классификации нескольких классов = есть только один «правильный ответ» = выходные данные являются взаимоисключающими, тогда используйте функцию softmax. Softmax обеспечит, чтобы сумма вероятностей ваших выходных классов была равна единице, поэтому, чтобы увеличить вероятность конкретного класса, ваша модель должна соответственно уменьшить вероятность по крайней мере одного из других классов. Пример: классификация изображений из набора данных MNIST рукописных цифр. Одно изображение цифры имеет только одну истинную идентичность - изображение не может быть 7 и 8 одновременно.

Ссылка: для более подробного объяснения того, когда использовать сигмоид против софтмакса в дизайне нейронной сети, включая примеры расчетов, см. Эту статью: «Классификация: сигмоид против софтмакса».

veritessa
источник

-1

В дополнение ко всем предыдущим ответам - я хотел бы упомянуть тот факт, что любая проблема классификации нескольких классов может быть сведена к множественным задачам двоичной классификации, используя метод «один против всех», то есть наличие сигмоидов C (когда C - число классы) и интерпретация каждой сигмоидальной вероятности того, чтобы быть в этом конкретном классе или нет, и принятие максимальной вероятности.

Так, например, в примере с цифрами MNIST вы можете использовать softmax или десять сигмоидов. Фактически это то, что Эндрю Нг делает в своем курсе Coursera ML. Вы можете проверить здесь, как Эндрю Нг использовал 10 сигмоидов для мультиклассовой классификации (адаптировано мной из Matlab для python), и вот моя адаптация softmax в python.

Кроме того, стоит отметить, что хотя функции эквивалентны (для целей мультиклассовой классификации), они немного различаются по своей реализации (особенно в отношении их производных и того, как представлять y).

Большим преимуществом использования нескольких двоичных классификаций (например, сигмоидов) перед одной мультиклассовой классификацией (например, Softmax) является то, что если ваш softmax слишком велик (например, если вы используете встраивание одного горячего слова в словарь размером 10K или более) ) - тренировать его может быть неэффективно. Вместо этого вы можете взять небольшую часть вашего тренировочного набора и использовать его для тренировки только небольшой части ваших сигмоидов. Это основная идея Negative Sampling .

Давид Рафаэли
источник

Функции не эквивалентны, потому что сеть softmax ограничена для создания распределения вероятностей по классам в качестве выходных данных: вектор неотрицателен и суммируется с 1. Сигмоидальные единицы неотрицательны, но они могут суммироваться с любым числом от 0 до ; это не допустимое распределение вероятностей. Это различие имеет решающее значение для характеристики различий между двумя функциями.

C

$C$

C

$C$

Восстановить Монику

Какое у вас определение эквивалента? Мой: вы можете использовать любой для мультиклассовой классификации без каких-либо проблем. Также - любая мультиклассовая классификация, которая использует softmax, может быть преобразована в двоичные классификации «один против всех», которые используют сигмоиды. Почему я должен заботиться о распределении выходов, суммирующих в 1?

Давид Рафаэли

Ваш аргумент о классификации по нескольким меткам показывает, почему сигмоид и софтмакс не эквивалентны. При использовании softmax увеличение вероятности одного класса уменьшает общую вероятность всех других классов (из-за суммы в 1). При использовании сигмоида увеличение вероятности одного класса не меняет общую вероятность других классов. Это наблюдение является причиной того, что сигмовидная форма является вероятной для классификации по нескольким меткам: один пример может принадлежать классамСумма к 1 также является причиной того, что softmax не подходит для классификации по нескольким меткам.

0, 1, 2, \dots, C

$0, 1, 2, \dots , C$

Восстановить Монику

Я потерял тебя. Для всех известных мне практических целей множественные сигмоиды = 1 softmax. Я даже добавил случай отрицательной выборки, когда множественные сигмоиды на самом деле имеют преимущество перед softmax.

Дэвид Рафаэли

Softmax против сигмоидальной функции в логистическом классификаторе?

Ответы: