Почему нейронные сети легко обмануть?

13

Я читал некоторые статьи о ручном создании изображений, чтобы «обмануть» нейронную сеть (см. Ниже).

Это потому, что сети моделируют только условную вероятность ? Если сеть может смоделировать общую вероятность p ( y , x ) , будут ли такие случаи происходить?п(Y|Икс)
п(Y,Икс)

Я предполагаю, что такие искусственно сгенерированные изображения отличаются от обучающих данных, поэтому они имеют низкую вероятность . Следовательно, p ( y , x ) должно быть низким, даже если p ( y | x ) может быть высоким для таких изображений.п(Икс)п(Y,Икс)п(Y|Икс)

Обновить

Я пробовал некоторые генеративные модели, они оказались бесполезными, так что, наверное, это следствие MLE?

Я имею в виду, что в случае, когда в качестве функции потерь используется дивергенция KL, значение где p d a t a ( x ) мало, не влияет на потери. Таким образом, для надуманного изображения, которое не соответствует p d a t a , значение p θ может быть произвольным.пθ(Икс)пdaTa(Икс)пdaTaпθ

Обновить

Я нашел блог Андрея Карпати, который показывает

Эти результаты не относятся к изображениям, ConvNets, и они также не являются «недостатком» в Deep Learning.

введите описание изображения здесь
ОБЪЯСНЕНИЕ И ПРИМЕНЕНИЕ ОБОБЩЕННЫХ ПРИМЕРОВ Глубокие нейронные сети легко одурачить: высоконадежные прогнозы для неузнаваемых изображений
введите описание изображения здесь

dontloo
источник
Вопрос, кажется, вне DNN, а не NN вообще?
Мэтью Ганн
@ MatthewGunn Я не уверен, согласно ответу seanv507, это кажется более общей проблемой.
dontloo
@MattewGunn, объясняющий и использующий бумагу с примерами состязаний - шоу относится и к логистической регрессии
seanv507

Ответы:

10

Разновидности моделей, на которые вы ссылаетесь, называются «порождающими» моделями, а не дискриминационными, и в действительности не масштабируются до крупномасштабных данных. Частью успехов NN в языковых задачах является переход от порождающей модели (HMM) к созданию «более» дискриминационной модели (например, MEMM использует логистическую регрессию, которая позволяет эффективно использовать контекстные данные https://en.wikipedia.org/ wiki / Hidden_Markov_model # Расширения )

Я бы сказал, что причина, по которой их одурачили, - более общая проблема. В настоящее время доминирует «мелкий» ИЛ-управляемый ИИ над более сложными методами. [во многих работах упоминается, что другие модели ML также легко обмануть - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ян Гудфеллоу]

наиболее эффективной «языковой моделью» для многих задач является «мешок слов». Никто не будет утверждать, что это представляет собой значимую модель человеческого языка. Нетрудно представить, что такие модели тоже легко одурачить.

Точно так же задачи компьютерного зрения, такие как распознавание объектов, были революционизированы «визуальным пакетом слов», который отбросил более интенсивные вычислительные методы (которые нельзя было применить к массивным наборам данных).

CNN - это, я бы сказал, лучшая «визуальная сумка слов» - как вы показываете на своих изображениях, ошибки совершаются на уровне пикселей / низком уровне; несмотря на всю гиперболу, в скрытых слоях нет представления высокого уровня - (все делают ошибки, суть в том, что человек будет совершать «ошибки» из-за особенностей более высокого уровня и, например, узнает мультфильм кота, который я не делаю » Я не верю, что NN будет).

Примером более сложной модели компьютерного зрения (которая работает хуже, чем NN) является, например, модель «деформируемых частей».

seanv507
источник
4

Насколько я знаю, большинство нейронных сетей не используют априорное распределение вероятностей по входным изображениям. Однако вы можете интерпретировать выбор обучающего набора как такое распределение вероятностей. С этой точки зрения эти искусственно созданные изображения вряд ли будут выбраны в качестве изображений в тестовом наборе. Один из способов измерить «совместную вероятность» состоит в том, чтобы случайным образом генерировать изображения и затем маркировать их. Проблема заключается в том, что подавляющее большинство VAST не будет иметь ярлыка. Таким образом, для получения разумного количества помеченных примеров потребуется слишком много времени.

dimpol
источник
спасибо, что ответили :) Я не совсем уверен, что означает «Один из способов измерения« совместной вероятности »состоит в том, чтобы случайным образом генерировать изображения и затем маркировать их». Вы имеете в виду маркировать случайные изображения вручную (в качестве другой категории )?
dontloo
1
Я имею в виду создание изображений путем случайного выбора значений RGB каждого пикселя. Это будет означать, что изображение правого верхнего панды в вашем посте и верхнего левого изображения «гиббона» будет иметь одинаковую вероятность создания. Проблема в том, что каждый пиксель имеет 2 ^ 24 возможных цветов, и подавляющее большинство сгенерированных изображений было бы бессмысленным. К тому времени, когда вы сгенерируете хотя бы одно изображение, которое можно пометить как «панда», вселенная исчезнет.
Димпол
о, я вижу, это кажется большой работой, в любом случае спасибо.
dontloo