Существует ли какое-либо существующее приложение для сэмплирования чьего-либо голоса и использования его для модуляции любого другого голоса или синтеза текста, напоминающего исходный?
Например, эта демонстрация преобразования текста в речь от AT & T позволяет вам выбрать голос и язык из предустановок, которые, как я полагаю, основаны на некотором человеческом голосе, который был сэмплирован.
Как вы называете этот процесс? Это голосовая модуляция? Синтез голоса?
modulation
voice
clapas
источник
источник
Ответы:
Первое замечание: большинство современных систем преобразования текста в речь, таких как система AT & T, с которой вы связаны, используют каскадный синтез речи . Этот метод использует большую базу данных записей голоса одного человека, издающих длинный набор предложений, выбранных так, чтобы присутствовало наибольшее количество комбинаций фонем. Синтез предложения может быть сделан просто путем связывания воедино сегментов этого корпуса - сложная задача - сделать связывание воедино бесшовным и выразительным.
Есть два больших препятствия, если вы хотите использовать эту технику, чтобы президент Обама сказал смущающие слова:
Ваша интуиция о том, что это возможное решение, действительна - при условии, что у вас есть бюджет для решения этих двух проблем.
К счастью, есть другие методы, которые могут работать с меньшим количеством наблюдений и данных. Область синтеза речи, заинтересованная в «подделке» или «подражании» одному голосу из записи, называется преобразованием голоса. . У вас есть запись А1 целевого говорящего А, произносящего предложение 1, и запись В2 исходного громкоговорителя В, говорящая предложение 2, вы стремитесь создать запись А2 говорящего А, произносящего предложение 2, возможно, с доступом к записи В1 говорящего Б, воспроизводящей с его / ее голосом то же самое высказывание как целевой динамик.
Схема системы преобразования голоса следующая:
Я настаиваю на том, что это работает на гораздо более низком уровне, чем выполнение распознавания речи в B2, а затем выполнение TTS с использованием голоса A1 в качестве корпуса.
Для шагов 1 и 2 используются различные статистические методы - наиболее распространенными являются GMM или VQ. Для части 2 используются различные алгоритмы выравнивания - это самая сложная часть, и очевидно, что выравнивание A1 против B1 легче, чем A1 против B2. В более простом случае для выравнивания могут использоваться такие методы, как Dynamic Time Warping. Что касается этапа 4, наиболее распространенным преобразованием являются линейные преобразования (умножение матриц) на векторах признаков. Более сложные преобразования создают более реалистичные имитации, но задача регрессии по поиску оптимального отображения является более сложной для решения. Наконец, что касается шага 5, качество ресинтеза ограничено используемыми функциями. LPC, как правило, легче иметь дело с простым методом преобразования (взять кадр сигнала -> оценить остаточный сигнал и спектр LPC -> при необходимости, остаточный сдвиг основного тона -> применить модифицированный спектр LPC к измененному остатку). Использование представления речи, которое может быть обращено обратно во временную область и которое обеспечивает хорошее разделение между просодией и фонемами, является ключевым моментом здесь! Наконец, при условии, что у вас есть доступ к выровненным записям ораторов A и B, говорящим одно и то же предложение, существуют статистические модели, которые одновременно выполняют шаги 1, 2, 3 и 4 в одной процедуре оценки модели.
Я мог бы вернуться с библиографией позже, но очень хорошим местом для начала, чтобы почувствовать проблему и общую структуру, использованную для ее решения, является «Система преобразования голоса, разработанная Стилиану, Муленом и Каппе, основанная на вероятностной классификации и гармонике». плюс модель шума ».
Насколько мне известно, широко не существует программного обеспечения, выполняющего преобразование голоса, - только программное обеспечение, изменяющее свойства исходного голоса, такие как параметры высоты тона и длины голосового тракта (например, преобразователь IRCAM TRAX), - с которым вам придется связываться в надежде сделать запись звука ближе к целевому голосу.
источник
Вы можете использовать что-то вроде MorphVox . Вот демонстрация. Процесс называется преобразованием голоса. Если вас интересуют технические аспекты, вы можете изучить недавнюю статью « Преобразование голоса с использованием динамической регрессии частично наименьших квадратов ядра» .
источник
Я ищу то же самое, но это не может быть сделано. В Шотландии есть компания CereProc, которая занимается моделированием голоса, но им нужен кто-то в лаборатории, записывающий часы аудио, и стоимость моделирования одного голоса составляет около 30 тысяч долларов США.
источник
То, что вы ищете, называется вокодером.
Вы пробовали вокодер Audcity? Audacity можно скачать по адресу : http://audacity.sourceforge.net/download . Демонстрацию о том, как его использовать, можно найти по адресу https://www.youtube.com/watch?v=J_rPEmJfwNs .
источник