это вопрос, который меня интересовал в течение некоторого времени, главным образом потому, что я сам работаю над подавлением шума для существующей системы распознавания речи.
Кажется, что в большинстве работ по технике шумоподавления основное внимание уделяется тому, как сделать речь более понятной для людей или как улучшить нечеткие термины, такие как «качество речи».
Я уверен, что с помощью таких критериев вы можете определить фильтры, которые делают шумовые речевые сигналы более легкими для восприятия людьми. Тем не менее, я не уверен, что эти критерии могут быть просто адаптированы при попытке оценить речевые сигналы, которые были удалены для улучшения точности системы распознавания речи.
Я действительно не нахожу документы, которые обсуждают эту разницу. Различают ли речь и ее качество с точностью систем распознавания речи? Существуют ли объективные меры, которые могут оценить, насколько «хорошим» будет сигнал с шумом от речи для системы распознавания речи, например, если также дать исходную чистую речь? Или это единственный способ узнать, насколько хороша ваша техника шумоподавления, обучить систему распознавания речи на обесцвеченных данных и посмотреть на точность?
Я был бы счастлив, если бы кто-то мог указать мне правильное направление или, возможно, дать какие-то документы, которые обсуждают это. Заранее спасибо!