Являются ли MFCC оптимальным методом представления музыки в поисковой системе?

Техника обработки сигналов, Мелкополосный Кепстр , часто используется для извлечения информации из музыкальной пьесы для использования в задаче машинного обучения. Этот метод дает кратковременный спектр мощности, а коэффициенты используются в качестве входных данных.

При проектировании систем поиска музыки такие коэффициенты считаются характерными для произведения (очевидно, не обязательно уникальными, но отличительными). Существуют ли характеристики, которые лучше подходят для обучения в сети? Будут ли более эффективными изменяющиеся во времени характеристики, такие как прогрессия басов пьесы, используемой в чем-то вроде сети Элмана ?

Какие характеристики сформируют достаточно обширный набор, на котором может проводиться классификация?

machine-learning classification signal-processing mfcc jonsca
источник

Вы работаете над поиском, где вы ищете уникальные качества конкретного аудиоклипа? или вы хотите идентифицировать подобную музыку?

Эндрю Розенберг

@AndrewRosenberg Больше по линии идентификации подобной музыки.

Jonsca

(Годы спустя), есть много способов повозиться с MFCC; Кинуннен и др., Частотная деформация и надежные проверки громкоговорителей: сравнение альтернативных представлений в мелкомасштабном выражении 2013, 5p, используют 60 коэффициентов. И оптимизировать что? На какой не открытой базе данных? Поэтому я бы сказал (не эксперт), что вопрос слишком широкий, чтобы отвечать.

Денис

@denis Спасибо за информацию. Это произошло от злополучной бета-версии машинного обучения (впервые). Я ценю, что это немного расплывчато.

Йонска

Ответы:

В какой-то момент мы проделали небольшую работу над этим. Набор функций, которые мы извлекли, дан в этом документе семинара NIPS . Я должен признать, что мы не смогли воспроизвести результаты некоторых других авторов в этой области, хотя были некоторые сомнения относительно наборов данных, используемых в них (обратите внимание, что наборы данных, используемые авторами в этой области, как правило, выбираются вручную и не публикуются для общественности, по причинам авторского права, хотя это не всегда так). По сути, все они были кратковременными спектральными особенностями.с добавленными коэффициентами авторегрессии. Мы рассматривали классификацию жанров, которая, как мы знаем, может быть сделана людьми (хотя и не с удивительной точностью и не с непротиворечивым согласием ...) в очень короткие промежутки времени (<1 с), что подтверждает использование краткосрочных функций , Если вы заинтересованы в более сложных вещах, чем типичная классификация жанра / исполнителя / альбома / продюсера, то вам могут потребоваться более широкие возможности, в противном случае эти краткосрочные спектральные характеристики имеют тенденцию работать лучше всего.

TDC
источник

Какова была цель добавления коэффициентов AR?

Jonsca

@jonsca Поскольку мы использовали методы повышения, которые работают путем объединения многих «слабых» учеников, мы решили использовать любые функции, которые можно легко рассчитать и которые могут принести некоторую пользу. Все, что требуется от слабого ученика, чтобы он был полезен, - это то, что он может классифицировать на уровнях, превышающих случайные. Коэффициенты AR эквивалентны сжатию спектральной огибающей, которое дает некоторое представление о кратковременной информационной сложности музыки в этом окне, хотя и очень слабо.

tdc

@tdc, "наборы данных, как правило, не публикуются для общественности ...": знаете ли вы какие-либо бесплатные онлайн-наборы данных речи с пометкой фонем?

Денис

@denis единственный, о котором я знаю, это: orange.biolab.si/datasets/phoneme.htm

tdc

@tdc, спасибо, но это только 11 гласных из Элементов изучения статистики, ~ 1000 x 11 функций (древний LPC).

Денис