Что значит «делиться параметрами между объектами и классами»

20

При чтении этой статьи есть строка, в которой говорится, что «линейные классификаторы не разделяют параметры между функциями и классами». В чем смысл этого утверждения? Означает ли это, что линейные классификаторы, такие как логистическая регрессия, нуждаются во взаимно независимых признаках?

джойди бхаттачарджи
источник

Ответы:

22

Я попытаюсь ответить на этот вопрос с помощью логистической регрессии , одного из простейших линейных классификаторов.

Самый простой случай логистической регрессии - это если у нас есть задача двоичной классификации ( и только одна входная функция ( ). В этом случае результат логистической регрессии будет:y{0,1})xR

y^=σ(wx+b)
где w и b оба являются скалярами . Выходные данные модели y^[0,1] соответствуют вероятности того, что x будет иметь класс 1 .

Мы попытаемся разбить фразу «линейные классификаторы не разделяют параметры между функциями и классами» на две части. Мы рассмотрим случаи нескольких объектов и нескольких классов отдельно, чтобы увидеть, разделяет ли логистическая регрессия параметры для каких-либо из этих задач:

Распределяют ли линейные классификаторы параметры между функциями?

В этом случае для каждого примера y - скаляр, который принимает двоичные значения (как прежде), а x - вектор длины N (где N - число признаков). Здесь выходные данные представляют собой линейную комбинацию входных признаков (то есть взвешенную сумму этих признаков плюс смещения).

x w N xw w i x i

y^=σ(iN(wixi)+b)orσ(wx+b)
, где и являются векторы длины . Произведение создает скаляр. Как видно из приведенного выше, для каждого входного объекта существует отдельный вес и эти веса во всех отношениях независимы . Из этого можно сделать вывод, что между функциями нет разделения параметров .xwNxw wixi

Распределяют ли линейные классификаторы параметры между классами?

В этом случае является скаляром, однако является вектором длины (где - количество классов). Чтобы справиться с этим, логистическая регрессия, по существу, создает отдельный выход для каждого из классов. Каждый выход представляет собой скаляр и соответствует вероятности принадлежащего классу .y M M y j M y j[ 0 , 1 ] x jxyMMyjMyj[0,1]xj

y^=wx+b,wherey^=y^1,y^2,...,yM

Самый простой способ думать об этом - это простых независимых логистических регрессий, каждая из которых выдает:M

y^j=σ(wjx+bj)

Из вышесказанного очевидно, что никакие веса не распределяются между различными классами .

многофункциональный и мультикласс :

Комбинируя два приведенных выше случая, мы можем, наконец, достичь наиболее общего случая нескольких объектов и нескольких классов:

у МхNбMW(N×M)

y^=σ(Wx+b)
где - вектор с размером , - вектор с размером, равным , - вектор с размером а - матрица с размером .y^MxNbMW(N×M)

В любом случае, линейные классификаторы не разделяют какие-либо параметры среди объектов или классов .

Чтобы ответить на ваш второй вопрос, линейные классификаторы действительно исходят из предположения о том, что функции должны быть независимыми , однако это не то, что намеревался сказать автор статьи.

Djib2011
источник
1
Хорошее объяснение. :)
joydeep bhattacharjee