Как понять сверточную сеть глубокого убеждения для классификации аудио?

11

В « Сверточных сетях глубокого убеждения для масштабируемого обучения без надзора иерархических представлений » Ли и соавт. др. ( PDF ) Предложены сверточные ДБН. Также метод оценивается для классификации изображений. Это звучит логично, поскольку существуют естественные локальные особенности изображения, такие как небольшие углы и края и т. Д.

В статье « Необучаемая функция обучения для классификации аудио с использованием сверточных сетей глубокого убеждения » Ли и соавт. и др. этот метод применяется для аудио в различных типах классификаций. Идентификация спикера, гендерная идентификация, классификация телефонов, а также музыкальный жанр / классификация артистов.

Как можно сверточную часть этой сети интерпретировать для аудио, как это можно объяснить для изображений как края?

Питер Смит
источник
У кого есть код для бумаги?

Ответы:

9

Приложение аудио представляет собой одномерное упрощение задачи классификации двумерных изображений. Фонема (например) - это звуковой аналог функции изображения, такой как ребро или круг. В любом случае такие признаки имеют существенную локализацию: они характеризуются значениями в относительно небольшой окрестности местоположения изображения или момента речи. Свертки - это контролируемая регулярная форма взвешенного усреднения значений в локальных окрестностях. Отсюда вытекает надежда на то, что сверточная форма DBN может быть успешной при выявлении и различении значимых признаков.

Whuber
источник
1

В случае сверточных RBM, применяемых к аудиоданным, авторы сначала взяли кратковременное преобразование Фурье, а затем определили энергетические полосы в спектре. Затем они применили сверточные RBM к преобразованному аудио.

user1915348
источник