Распознавание математических функций в песнях

12

Я новичок в DSP, и только что обнаружил этот StackExchange, поэтому извиняюсь, если это не то место, где можно разместить этот вопрос.

Есть ли ресурс, который описывает жанры в более математическом плане? Например, если я выполнил БПФ для сигнала в этом разделе песни (2:09, если ссылка там не начинается), могу ли я обнаружить, что этот раздел имеет грубую сортировку звука? Следуют ли такие звуки какой-то математической функции, с которой я могу сравнить? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (ссылка сразу начинает воспроизводиться)

Является ли единственный способ использовать контролируемые методы обучения или существует другой подход (который предпочтительно не требует надзора)?

Спасибо за любой совет.

XSL
источник
Вы можете использовать БПФ для обнаружения удара барабана против флейты, но не для определения жанра. Конечно, очень локальные вещи о звуке, но не о музыкальном характере всего файла.
эндолит
Можно ли распознать «грубость» звука? Это где MFCC вступают в игру?
XSL

Ответы:

10

Я думаю, что различие, которое вы ищете, больше похоже на эмпирическое и теоретическое (в отличие от контролируемого и неконтролируемого), но я могу ошибаться в этом. Другими словами, идеальным вариантом было бы теоретическое определение различных жанров, а не просто набор непрозрачных данных, которые можно использовать для классификации песни [без какого-либо реального понимания].

Тем не менее, для общей классификации жанров, вы, вероятно, застряли, по крайней мере, в обучении на примерах, даже если просто создать определения жанров в первую очередь. Что касается вашего примера, подумайте о том, как часто люди будут спорить [на YouTube] о том, является ли данный трек действительно дабстепом (например, любой трек, который более даббит и менее шаткий , даже если жанр начинался без какого-либо реального колебания). Люди определяют жанры с течением времени с помощью примеров, поэтому разумно ожидать, что алгоритмы, которые воспроизводят такое поведение, также потребуют некоторых примеров. То, как люди описывают жанры, почти как векторный признак в любом случае - они задают список вопросов о песне (например, она более прерывистая или шаткая? В ней много суб-баса? Как долго? Каков темп? Есть ли вокал? и т. д.).

Конечно, вы можете выбрать список функций, которые также обеспечивают интуитивное понимание жанра. Такая функция, как «Динамический диапазон» - это то, что человек может обнаружить на слух, но что-то вроде «Пересечения нуля во временной области» не будет очень интуитивно понятным, даже если он хорошо работает для классификации. Следующая статья имеет несколько функций, которые могут быть вам интересны:

Джордж Цанетакис, Перри Р. Кук: Музыкальная жанровая классификация звуковых сигналов. IEEE Транзакции по обработке речи и аудио 10 (5): 293-302 (2002) ссылка .

Для измерения шероховатости лучше всего начать с психоакустической шероховатости , но этого может быть недостаточно, например, для разграничения дабстепов и электроотводов. Для более тонких различий стоит обратить внимание на распознавание тембров . Следующий тезис имеет достойный обзор методов:

TH Park, «На пути к автоматическому распознаванию тембра музыкальных инструментов», канд. диссертация, Принстонский университет, Нью-Джерси, 2004. ссылка .

Существует также модель, связанная с шероховатостью восприятия в тембре, настройке, спектре и шкале, которая используется для построения пользовательских шкал для произвольных тембров. Идея состоит в том, что гармоники, которые находятся очень близко друг к другу, создают частоты биений, которые воспринимаются как диссонанс. Перефразируя из Приложений F и E ,

Когда представляет собой спектр с частями на частотах , собственный диссонанс [в предположении единичных амплитуд]Ff1,f2,...,fn

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

где

d(x)=e3.5xe5.75x

является моделью кривой Plomp-Levelt .

Он используется для измерения того, насколько приятен данный аккорд по отношению к тембру (путем минимизации диссонанса). Я не знаю, будет ли грубость психоакустического разнообразия или внутренний диссонанс быть очень плодотворными для ваших собственных целей, но они могут быть полезны в сочетании с другими показателями.

Возможно, вам удастся более математически классифицировать тембры, чем жанры. Например, струны имеют четные и нечетные гармоники, но кларнет имеет только нечетные гармоники (ср. Пилообразная волна , прямоугольная волна ). Колебание дабстепа, как правило, выполняется с помощью LFO-управляемых фильтров (фильтры нижних частот и / или формант), поэтому что-то вроде Spectral Flux (см. [Tzanetakis] выше) может быть хорошей отправной точкой в ​​качестве функции. Однако я сомневаюсь, что кто-нибудь еще изучал математическую классификацию вобуляции;)

специалист по обработке данных
источник
2
Отличный ответ от datageist. Я бы также предложил isophonics.net/QMVampPlugins, если вам нужна дополнительная информация и платформа для разработчиков с исходным кодом
Дэн Барри,
@Dan Это выглядит потрясающе, спасибо за эту ссылку.
обработке данных
Я нашел нишу для изучения! : D Спасибо за блестящий ответ и ссылки. Он указал мне направление, а не бесцельно используя Google.
XSL
Рад помочь :)
datageist