Гиперплоскости оптимально классифицируют данные, когда входные данные условно независимы. Почему?

10

В статье под названием « Глубокое обучение и принцип узкого места в информации» авторы утверждают в разделе II А) следующее:

Одиночные нейроны классифицируют только линейно разделимые входы, поскольку они могут реализовывать только гиперплоскости в своем входном пространстве u=wh+b . Гиперплоскости могут оптимально классифицировать данные, когда входные данные условно независимы.

Чтобы показать это, они выводят следующее. Используя теорему Байеса, они получают:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y))(1)

Где x - это входные данные, y - это класс, а y - предсказанный класс (я полагаю, y не определен). Продолжая, они заявляют, что:

(2)p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj)

Где - входное измерение, а n - я не уверен (опять же, оба не определены). Учитывая сигмоидальный нейрон с сигмоидальной активационной функцией σ ( u ) = 1Nn и преактивацииu, после вставки (2) в (1) получаем оптимальные весовые значенияwj=logp(xj|y)σ(u)=11+exp(u)U иb=logp(y)wj=logp(xj|y)p(xj|y) , когда входные значенияhj=np(xj).b=logp(y)p(y)hj=np(xj)

Теперь к моим вопросам. Я понимаю, как вставка (2) в (1) приводит к оптимальному весу и входным значениям . Однако я не понимаю следующее:w,b,h

  1. Как (1) получается с использованием теоремы Байеса?
  2. Как получается (2)? Что такое ? В чем смысл этого? Я предполагаю, что это как-то связано с условной независимостьюn
  3. Даже если размеры x условно независимы, как можно утверждать, что он равен его масштабированной вероятности? (т.е. как вы можете заявить, что ?)hj=np(xj)

РЕДАКТИРОВАТЬ: переменная является двоичной переменной класса. Исходя из этого, я предполагаю, что у является «другим» классом. Это решит вопрос 1. Согласны ли вы?yy

spurra
источник
Я изо всех сил пытаюсь понять, откуда происходит уравнение 2, несмотря на указатели в ответе автора статьи (проф. Тишби). Я понимаю ту часть, которая исходит из предположения об условной независимости. Однако я не уверен насчет показателя - почему он там? np(xj)
IcannotFixThis

Ответы:

5

Извините за недостающие детали в нашей короткой статье, но эти отношения и связи между тестом отношения правдоподобия и сигмоидальными нейронами, конечно, не новы, и их можно найти в учебниках (например, Bishop 2006). В нашей статье «N» - это входное измерение, а «n» - размер тестовой выборки (который фактически переводится во входное SNR при условии, что SNR растет как sqrt (n)). Связь с сигмоидальной функцией осуществляется через правило Байеса, как заднюю часть класса. Ничто в остальной части статьи и нашей новой и более важной статье 2017 года на самом деле не зависит от этого.

Нафтали Тишби

Нафтали Тишби
источник
2
Спасибо за разъяснение этого здесь. В этом сообществе принято писать полные цитаты, чтобы заинтересованные читатели могли искать источники. Не могли бы вы сделать это для епископа (2006)?
mkt - Восстановить Монику
5

Это модель, в которой авторы используют специальную форму теоремы Байеса, которая применяется, когда у вас есть интересующая нас двоичная переменная. Сначала они выводят эту особую форму теоремы Байеса как уравнение (1), а затем показывают, что условие в уравнении (2) приводит их к линейной форме, определенной для их сети. Важно отметить, что последнее уравнение не является производным от предыдущих условий, скорее это условие линейной формы, которую они используют для своей сети.


Вывод первого уравнения: Уравнение (1) в статье является лишь формой теоремы Байеса, которая задает условную вероятность интереса в терминах стандартной логистической (сигмоидальной) функции, действующей на функции вероятности и априора. Взяв y и y за два двоичных результата случайной величины Y , и применив теорему Байеса, получим:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

Использование уравнения (2) в качестве условия для лиенарной формы сети: как указано выше, это уравнение не является чем-то, что получено из предыдущих результатов. Скорее, это достаточное условие, которое приводит к линейной форме, которую авторы используют в своей модели, т. Е. Авторы говорят, что если это уравнение выполнено, то следуют определенные последующие результаты. Позволить входной вектор x=(x1,...,xN) имеют длину N , если уравнение (2) имеет место, то логарифмирования обеих сторон дает:

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

Under this condition, we therefore obtain the posterior form:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

which is the form that the authors are using in their network. This is the model form postulated by the authors in the background section, prior to specifying Equations (1)-(2). The paper does not define n is in this model setup, but as you point out, the answer by Prof Tishby says that this is the test sample size. In regard to your third question, it appears that the requirement of Equation (2) means that the values in x are not conditionally independent given y.

Ben - Reinstate Monica
источник
Prof. Tishby (author) says, in his own answer, that n is the test sample size. This is why I felt that eq (2) had a much richer interpretation than just an arbitrary condition to the linear form of the network.
IcannotFixThis
Thanks - I have edited my answer to reflect this additional information.
Ben - Reinstate Monica
4

For 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

Now as yi is binary, this becomes:

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

and from there its just the property of the logarithm to get to the final form (should be sufficiently clear by this point, let me know if not).

Chris Ormandy
источник