Я новичок в DSP, и только что обнаружил этот StackExchange, поэтому извиняюсь, если это не то место, где можно разместить этот вопрос.
Есть ли ресурс, который описывает жанры в более математическом плане? Например, если я выполнил БПФ для сигнала в этом разделе песни (2:09, если ссылка там не начинается), могу ли я обнаружить, что этот раздел имеет грубую сортировку звука? Следуют ли такие звуки какой-то математической функции, с которой я могу сравнить? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s (ссылка сразу начинает воспроизводиться)
Является ли единственный способ использовать контролируемые методы обучения или существует другой подход (который предпочтительно не требует надзора)?
Спасибо за любой совет.
Ответы:
Я думаю, что различие, которое вы ищете, больше похоже на эмпирическое и теоретическое (в отличие от контролируемого и неконтролируемого), но я могу ошибаться в этом. Другими словами, идеальным вариантом было бы теоретическое определение различных жанров, а не просто набор непрозрачных данных, которые можно использовать для классификации песни [без какого-либо реального понимания].
Тем не менее, для общей классификации жанров, вы, вероятно, застряли, по крайней мере, в обучении на примерах, даже если просто создать определения жанров в первую очередь. Что касается вашего примера, подумайте о том, как часто люди будут спорить [на YouTube] о том, является ли данный трек действительно дабстепом (например, любой трек, который более даббит и менее шаткий , даже если жанр начинался без какого-либо реального колебания). Люди определяют жанры с течением времени с помощью примеров, поэтому разумно ожидать, что алгоритмы, которые воспроизводят такое поведение, также потребуют некоторых примеров. То, как люди описывают жанры, почти как векторный признак в любом случае - они задают список вопросов о песне (например, она более прерывистая или шаткая? В ней много суб-баса? Как долго? Каков темп? Есть ли вокал? и т. д.).
Конечно, вы можете выбрать список функций, которые также обеспечивают интуитивное понимание жанра. Такая функция, как «Динамический диапазон» - это то, что человек может обнаружить на слух, но что-то вроде «Пересечения нуля во временной области» не будет очень интуитивно понятным, даже если он хорошо работает для классификации. Следующая статья имеет несколько функций, которые могут быть вам интересны:
Для измерения шероховатости лучше всего начать с психоакустической шероховатости , но этого может быть недостаточно, например, для разграничения дабстепов и электроотводов. Для более тонких различий стоит обратить внимание на распознавание тембров . Следующий тезис имеет достойный обзор методов:
Существует также модель, связанная с шероховатостью восприятия в тембре, настройке, спектре и шкале, которая используется для построения пользовательских шкал для произвольных тембров. Идея состоит в том, что гармоники, которые находятся очень близко друг к другу, создают частоты биений, которые воспринимаются как диссонанс. Перефразируя из Приложений F и E ,
Он используется для измерения того, насколько приятен данный аккорд по отношению к тембру (путем минимизации диссонанса). Я не знаю, будет ли грубость психоакустического разнообразия или внутренний диссонанс быть очень плодотворными для ваших собственных целей, но они могут быть полезны в сочетании с другими показателями.
Возможно, вам удастся более математически классифицировать тембры, чем жанры. Например, струны имеют четные и нечетные гармоники, но кларнет имеет только нечетные гармоники (ср. Пилообразная волна , прямоугольная волна ). Колебание дабстепа, как правило, выполняется с помощью LFO-управляемых фильтров (фильтры нижних частот и / или формант), поэтому что-то вроде Spectral Flux (см. [Tzanetakis] выше) может быть хорошей отправной точкой в качестве функции. Однако я сомневаюсь, что кто-нибудь еще изучал математическую классификацию вобуляции;)
источник