Кепстральная средняя нормализация

15

Может кто-нибудь объяснить, пожалуйста, о нормализации Cepstral Среднее, как свойство эквивалентности свертки влияет на это? Должно ли это делать CMN в распознавании речи на основе MFCC? Почему свойство свертки является фундаментальной необходимостью для MFCC?

Я очень новичок в этой обработке сигналов. Пожалуйста помоги

мун
источник
Может, без использования банка фильтров, преобразование частоты непосредственно в Melscale будет работать в процессе MFCC?
фиолетовый

Ответы:

18

Просто чтобы прояснить ситуацию - это свойство не фундаментально, а важно . Это принципиальная разница, когда речь идет об использовании DCT вместо DFT для расчета спектра.

Почему мы делаем Нормальную Сепстральную Нормализацию?

При распознавании динамика мы хотим убрать любые эффекты канала (импульсная характеристика голосового тракта, звуковой тракт, комната и т. Д.). При условии, что входной сигнал равен а импульсная характеристика канала задается как h [ n ] , записанный сигнал является линейной сверткой обоих:Икс[N]час[N]

Y[N]знак равноИкс[N]час[N]

Принимая преобразование Фурье, мы получаем:

Y[е]знак равноИкс[е]ЧАС[е]

из-за свойства эквивалентности FT-умножения свертки - вот почему на этом шаге так важно свойство FFT .

Следующим шагом в расчете кепстра является логарифм спектра:

Y[Q]знак равножурналY[е]знак равножурнал(Икс[е]ЧАС[е])знак равноИкс[Q]+ЧАС[Q]

потому что: . Очевидно, q является quefrency . Как можно заметить, взяв кепстр свертки во временной области, мы получим добавление в кепстральную (quefrency) область.журнал(aб)знак равножурналa+журналбQ

Что такое Нормальная Кепстральная Нормализация?

Теперь мы знаем, что в кепстральной области любые сверточные искажения представлены сложением. Давайте предположим, что все они являются стационарными (что является сильным допущением, поскольку голосовой тракт и отклик канала не изменяются), а стационарная часть речи незначительна. Мы можем наблюдать, что для каждого i-го кадра истина равна:

Yя[Q]знак равноЧАС[Q]+Икся[Q]

Взяв среднее по всем кадрам, мы получим

1NΣяYя[Q]знак равноЧАС[Q]+1NΣяИкся[Q]

Определение разницы:

ря[Q]знак равноYя[Q]-1NΣJYJ[Q]знак равноЧАС[Q]+Икся[Q]-(ЧАС[Q]+1NΣJИксJ[Q])знак равноИкся[Q]-1NΣJИксJ[Q]

Мы заканчиваем с нашим сигналом с удаленными искажениями канала. Ввод всех приведенных выше уравнений в простой английский:

  • Рассчитать кепстр
  • Вычтите среднее из каждого коэффициента
  • При желании делите на дисперсию для выполнения Нормальной Цепстральной Нормы в отличие от Вычитания.

Нужна ли средняя норма Cepstral?

Это не обязательно, особенно когда вы пытаетесь распознать одного оратора в одной среде. Фактически, это может даже ухудшить ваши результаты, так как подвержено ошибкам из-за аддитивного шума:

Y[N]знак равноИкс[N]час[N]+вес[N]

Y[е]знак равноИкс[е]ЧАС[е]+W[е]

журналY[е]знак равножурнал[Икс[е](ЧАС[е]+W[е]Икс[е])]знак равножурналИкс[е]+журнал(ЧАС[е]+W[е]Икс[е])

В условиях плохого ОСШ отмеченный срок может обогнать оценку.

Хотя, когда CMS выполняется, вы обычно можете получить несколько дополнительных процентов. Если вы прибавите к этому прирост производительности от производных коэффициентов, то вы получите реальное повышение вашей скорости распознавания. Окончательное решение остается за вами, особенно если учесть множество других методов, используемых для улучшения систем распознавания речи.

Jojek
источник
@mun: Рад, что это помогло. Почему бы не отметить ответы на свои вопросы как принятые, чтобы можно было снять ограничения для новых пользователей?
jojek
@mun: Поздравляю! Теперь вы публикуете больше ссылок, голосуете за вопросы и ответы + помечайте сообщения.
jojek
спасибо @jojek .. Я очень новичок во всем этом. Но я рад, что мне удалось решить мою проблему.
мун
@mun: Тогда я определенно предлагаю вам совершить небольшой тур
jojek
В последнем ответе я не могу понять, что на самом деле означает «добавить к этому прирост производительности от производных коэффициентов». Можете ли вы дать простое объяснение? Большое спасибо
Шуай Ван