Для статистических моделей и моделей машинного обучения существует несколько уровней интерпретируемости: 1) алгоритм в целом, 2) части алгоритма в целом, 3) части алгоритма на конкретных входных данных, и эти три уровня разбиты на две части каждая, один для обучения и один для функции eval. Последние две части гораздо ближе, чем к первой. Я спрашиваю о # 2, который обычно приводит к лучшему пониманию # 3). (если это не то, что означает «интерпретируемость», тогда о чем мне думать?)
Что касается интерпретируемости, логистическая регрессия является одной из самых простых для интерпретации. Почему этот экземпляр прошел порог? Потому что этот экземпляр имел именно эту положительную особенность, и он имеет больший коэффициент в модели. Это так очевидно!
Нейронная сеть - классический пример модели, которую трудно интерпретировать. Что означают все эти коэффициенты ? Все они складываются таким сложным безумным образом, что трудно сказать, что на самом деле делает какой-то конкретный коэффициент.
Но с выходом всех глубоких нейронных сетей кажется, что все становится яснее. Модели DL (скажем, для видения), кажется, фиксируют такие вещи, как ребра или ориентация в ранних слоях, а в более поздних слоях кажется, что некоторые узлы на самом деле являются семантическими (например, общеизвестная «ячейка бабушки» ). Например:
( из «Изучения глубокого обучения» )
Это графика ( из многих ), созданная вручную для презентации, поэтому я очень скептически отношусь. Но это свидетельство того, что кто-то думает, что так оно и есть.
Возможно, в прошлом нам просто не хватало слоев, чтобы найти узнаваемые особенности; Модели были успешными, но не так просто проанализировать отдельные из них.
Но, может быть, графика это просто желаемое за действительное. Может быть, НН действительно непостижимы.
Но многие графические элементы с узлами, помеченными картинками, также действительно привлекательны.
Действительно ли DL-узлы соответствуют функциям?
Ответы:
Интерпретация глубоких моделей все еще остается сложной задачей.
Ваш пост упоминает только CNN для приложений компьютерного зрения, но (глубокие или неглубокие) сети прямой связи и рекуррентные сети остаются сложными для понимания.
Даже в случае CNN, которые имеют очевидные структуры «детектора признаков», такие как края и ориентация пиксельных пятен, не совсем очевидно, как эти низкоуровневые элементы агрегируются вверх или что именно происходит, когда эти объекты видения агрегируются в полностью связанный слой.
Состязательные примеры показывают, как сложно интерпретировать сеть. Состязательный пример имеет крошечную модификацию, но приводит к резкому изменению решения, принятого моделью. В контексте классификации изображений незначительное количество шума, добавляемое к изображению, может изменить изображение ящерицы, чтобы иметь очень уверенную классификацию как другое животное, например (вид) собаки.
Это связано с интерпретируемостью в том смысле, что существует сильная, непредсказуемая связь между (небольшим) количеством шума и (большим) сдвигом в решении о классификации. Размышляя о том, как работают эти сети, он имеет некоторый смысл: вычисления на предыдущих уровнях распространяются вперед, так что ряд ошибок - небольших, неважных ошибок для человека - увеличивается и накапливается по мере того, как все больше вычислений выполняется с использованием «поврежденные» входы.
С другой стороны, наличие состязательных примеров показывает, что интерпретация любого узла как особого объекта или класса затруднена, поскольку тот факт, что узел активирован, может иметь мало общего с фактическим содержимым исходного изображения, и что эти отношения не очень предсказуемы с точки зрения исходного изображения. Но в приведенных ниже примерах изображений никого не обманут люди по поводу содержания изображений: вы не спутаете флагшток с собакой. Как мы можем интерпретировать эти решения, либо в совокупности (небольшой шумовой шаблон «превращает» ящерицу в собаку или флагшток в собаку), либо в более мелкие фрагменты (чтобы несколько детекторов признаков были более чувствительны к шаблону шума, чем фактическое изображение содержание)?
HAAM - это многообещающий новый метод генерации состязательных изображений с использованием гармонических функций. («Метод Гармонической Состязательной Атаки» Вэнь Хэн, Шучан Чжоу, Тинтинг Цзян.) Изображения, полученные с помощью этого метода, могут использоваться для имитации эффектов освещения / тени и, как правило, людям еще сложнее обнаружить, что они были изменены.
В качестве примера, см. Это изображение, взятое из « Универсальных состязательных возмущений » Сейедом-Мохсеном Моосави-Дезфоли, Алхусейном Фаузи, Омаром Фаузи и Паскалем Фроссаром. Я выбрал это изображение только потому, что это было одно из первых состязательных изображений, с которыми я столкнулся. На этом изображении показано, что определенная схема шума оказывает странное влияние на решение о классификации изображения, в частности, что вы можете сделать небольшую модификацию входного изображения и заставить классификатор думать, что результатом является собака. Обратите внимание, что исходное, оригинальное изображение все еще очевидно: во всех случаях человек не должен быть смущен, думая, что любые изображения, не являющиеся собаками, являются собаками.
Вот второй пример из более канонической статьи « ЯН Дж. Гудфеллоу, Джонатон Шленс и Кристиан Сегеди », « ОБЪЯСНЯЯ И ПРИЗНАВАЯ ОБОБЩЕННЫЕ ПРИМЕРЫ ». Добавленный шум совершенно не различим в полученном изображении, но результат очень уверенно классифицируется как неправильный результат, гиббон вместо панды. В этом случае, по крайней мере, существует по крайней мере мимолетное сходство между двумя классами, поскольку гиббоны и панды, по крайней мере, в некоторой степени биологически и эстетически похожи в широком смысле.
Этот третий пример взят из « Обнаружения обобщенных состязательных примеров, основанного на несоответствии решений по би-модели » Жуана Монтейру, Захида Ахтара и Тиаго Х. Фалька. Он устанавливает, что структура шума может быть неразличима для человека, но при этом все еще вводит в заблуждение классификатор.
Для справки, грязевой щенок - это животное темного цвета с четырьмя конечностями и хвостом, поэтому он не очень похож на золотую рыбку.
Таким образом, вместо того, чтобы иметь «детекторы признаков» на более высоких уровнях, узлы просто представляют координаты в пространстве признаков, которое сеть использует для моделирования данных.
источник
Слои не отображаются последовательно на более абстрактные объекты так чисто, как нам хотелось бы. Хороший способ убедиться в этом - сравнить две очень популярные архитектуры.
VGG16 состоит из множества сверточных слоев, уложенных друг на друга со случайным слоем объединения - очень традиционная архитектура.
С тех пор люди перешли к разработке остаточных архитектур, где каждый слой связан не только с предыдущим, но и с одним (или, возможно, несколькими) слоями, расположенными ниже в модели. ResNet был одним из первых, кто сделал это, и имеет около 100 слоев, в зависимости от того, какой вариант вы используете.
В то время как VGG16 и подобные сети имеют уровни, действующие более или менее интерпретируемым образом - изучая функции более высокого и более высокого уровня, ResNets не делает этого. Вместо этого люди предложили либо усовершенствовать функции, чтобы сделать их более точными, либо просто замаскировать кучу мелких сетей , ни один из которых не соответствует «традиционным взглядам» на то, что изучают глубокие модели.
В то время как ResNet и аналогичные архитектуры превосходят VGG по классификации изображений и обнаружению объектов, похоже, есть некоторые приложения, для которых очень важна простая восходящая иерархия функций VGG. Смотрите здесь для хорошего обсуждения.
Поэтому, учитывая, что более современные архитектуры, кажется, больше не вписываются в картину, я бы сказал, что мы не можем сказать, что CNN еще можно интерпретировать.
источник
Тема моей кандидатской диссертации состояла в том, чтобы раскрыть свойства черного ящика нейронных сетей, в частности нейронных сетей с прямой связью, с одним или двумя скрытыми слоями.
Я возьму на себя задачу объяснить каждому, что означают весовые коэффициенты, в однослойной нейронной сети с прямой связью. Будут рассмотрены две разные перспективы: параметрическая и вероятностная.
Такое представление ваших входных данных требуется для того, чтобы иметь возможность интерпретировать (абсолютное значение) размер весов во входном слое.
Параметрическое значение:
Чем важнее скрытые узлы для выходного узла (по частотам, по обучающему набору), какие «входные веса умноженные на входные частоты» наиболее важны? Затем мы рассмотрим значение параметров нейронных сетей прямой связи.
Вероятностная интерпретация:
Индивидуальный случай - выкройка
Глубокая склонность - и значение параметров NN
Применительно к компьютерному зрению нейронные сети показали значительный прогресс в последнее десятилетие. Оказалось, что сверточные нейронные сети, представленные LeCunn в 1989 году, в конечном итоге показали себя действительно хорошо с точки зрения распознавания изображений. Сообщалось, что они могут превзойти большинство других компьютерных подходов к распознаванию.
Интересные эмерджентные свойства появляются, когда сверточные нейронные сети обучаются распознаванию объектов. Первый слой скрытых узлов представляет низкоуровневые детекторы объектов, аналогичные операторам масштабного пространства Т. Линдеберг, «Обнаружение объектов с автоматическим выбором масштаба», 1998 . Эти операторы масштабного пространства обнаруживают
и некоторые другие основные функции изображения.
Еще более интересным является тот факт, что воспринимаемые нейроны в мозге млекопитающих, как было показано, напоминают этот способ работы на первых этапах (биологической) обработки изображений. Таким образом, с CNN научное сообщество приближается к тому, что делает человеческое восприятие настолько феноменальным. Это делает очень целесообразным дальнейшее развитие этой линии исследований.
источник