Распознавание математических функций в песнях

Я новичок в DSP, и только что обнаружил этот StackExchange, поэтому извиняюсь, если это не то место, где можно разместить этот вопрос.

Есть ли ресурс, который описывает жанры в более математическом плане? Например, если я выполнил БПФ для сигнала в этом разделе песни (2:09, если ссылка там не начинается), могу ли я обнаружить, что этот раздел имеет грубую сортировку звука? Следуют ли такие звуки какой-то математической функции, с которой я могу сравнить? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (ссылка сразу начинает воспроизводиться)

Является ли единственный способ использовать контролируемые методы обучения или существует другой подход (который предпочтительно не требует надзора)?

Спасибо за любой совет.

algorithms fourier-transform audio frequency-spectrum XSL
источник

Вы можете использовать БПФ для обнаружения удара барабана против флейты, но не для определения жанра. Конечно, очень локальные вещи о звуке, но не о музыкальном характере всего файла.

эндолит

Можно ли распознать «грубость» звука? Это где MFCC вступают в игру?

XSL

Я думаю, что различие, которое вы ищете, больше похоже на эмпирическое и теоретическое (в отличие от контролируемого и неконтролируемого), но я могу ошибаться в этом. Другими словами, идеальным вариантом было бы теоретическое определение различных жанров, а не просто набор непрозрачных данных, которые можно использовать для классификации песни [без какого-либо реального понимания].

Тем не менее, для общей классификации жанров, вы, вероятно, застряли, по крайней мере, в обучении на примерах, даже если просто создать определения жанров в первую очередь. Что касается вашего примера, подумайте о том, как часто люди будут спорить [на YouTube] о том, является ли данный трек действительно дабстепом (например, любой трек, который более даббит и менее шаткий , даже если жанр начинался без какого-либо реального колебания). Люди определяют жанры с течением времени с помощью примеров, поэтому разумно ожидать, что алгоритмы, которые воспроизводят такое поведение, также потребуют некоторых примеров. То, как люди описывают жанры, почти как векторный признак в любом случае - они задают список вопросов о песне (например, она более прерывистая или шаткая? В ней много суб-баса? Как долго? Каков темп? Есть ли вокал? и т. д.).

Конечно, вы можете выбрать список функций, которые также обеспечивают интуитивное понимание жанра. Такая функция, как «Динамический диапазон» - это то, что человек может обнаружить на слух, но что-то вроде «Пересечения нуля во временной области» не будет очень интуитивно понятным, даже если он хорошо работает для классификации. Следующая статья имеет несколько функций, которые могут быть вам интересны:

Джордж Цанетакис, Перри Р. Кук: Музыкальная жанровая классификация звуковых сигналов. IEEE Транзакции по обработке речи и аудио 10 (5): 293-302 (2002) ссылка .

Для измерения шероховатости лучше всего начать с психоакустической шероховатости , но этого может быть недостаточно, например, для разграничения дабстепов и электроотводов. Для более тонких различий стоит обратить внимание на распознавание тембров . Следующий тезис имеет достойный обзор методов:

TH Park, «На пути к автоматическому распознаванию тембра музыкальных инструментов», канд. диссертация, Принстонский университет, Нью-Джерси, 2004. ссылка .

Существует также модель, связанная с шероховатостью восприятия в тембре, настройке, спектре и шкале, которая используется для построения пользовательских шкал для произвольных тембров. Идея состоит в том, что гармоники, которые находятся очень близко друг к другу, создают частоты биений, которые воспринимаются как диссонанс. Перефразируя из Приложений F и E ,

Когда представляет собой спектр с частями на частотах , собственный диссонанс [в предположении единичных амплитуд] $F$ $f_1,f_2,...,f_n$

$D_{F} = 1 / 2 \sum_{i = 1}^{n} \sum_{j = 1}^{n} d (\frac{| f_{i} - f_{j} |}{min (f_{i}, f_{j})})$ $D_F = 1/2 \space \sum_{i=1}^{n}{} \space \sum_{j=1}^{n}{\space d\left({|f_i - f_j| \over{\min(f_i,f_j)}} \right) }$
где
$d (x) = e^{- 3.5 x} - e^{- 5.75 x}$ $d(x) = e^{-3.5 x} - e^{-5.75 x}$
является моделью кривой Plomp-Levelt .

Он используется для измерения того, насколько приятен данный аккорд по отношению к тембру (путем минимизации диссонанса). Я не знаю, будет ли грубость психоакустического разнообразия или внутренний диссонанс быть очень плодотворными для ваших собственных целей, но они могут быть полезны в сочетании с другими показателями.

Возможно, вам удастся более математически классифицировать тембры, чем жанры. Например, струны имеют четные и нечетные гармоники, но кларнет имеет только нечетные гармоники (ср. Пилообразная волна , прямоугольная волна ). Колебание дабстепа, как правило, выполняется с помощью LFO-управляемых фильтров (фильтры нижних частот и / или формант), поэтому что-то вроде Spectral Flux (см. [Tzanetakis] выше) может быть хорошей отправной точкой в качестве функции. Однако я сомневаюсь, что кто-нибудь еще изучал математическую классификацию вобуляции;)

специалист по обработке данных
источник

Отличный ответ от datageist. Я бы также предложил isophonics.net/QMVampPlugins, если вам нужна дополнительная информация и платформа для разработчиков с исходным кодом

Дэн Барри,

@Dan Это выглядит потрясающе, спасибо за эту ссылку.

обработке данных

Я нашел нишу для изучения! : D Спасибо за блестящий ответ и ссылки. Он указал мне направление, а не бесцельно используя Google.

XSL

Рад помочь :)

datageist

Распознавание математических функций в песнях

Ответы: