Моя проблема в том, что я не знаю энергию фонового шума, поэтому я не могу просто ограничить энергию. Обработка выполняется в режиме реального времени, и у меня есть около 500 мсек, чтобы решить. В идеале я бы хотел, чтобы тихие согласные считались не тишиной.
audio
speech-recognition
Майкл Литвин
источник
источник
Ответы:
Есть несколько параметров, которые вы можете посмотреть:
Я думаю, что комбинация этих трех должна дать довольно надежную схему обнаружения.
источник