Естественно звучащий текст в речь?

86

Я ищу простое в установке программное обеспечение преобразования текста в речь для Ubuntu, которое звучит естественно. Я установил Festival, Gespeakerи т.д., но ничего не звучит очень естественно. Все очень синтетично и трудно понять.

Есть какие-нибудь рекомендации?

Я Сердце Ubuntu
источник

Ответы:

51

SVOX pico2wave

Очень минималистичный TTS, лучше звучащий, чем espeak или mbrola (на мой взгляд). Некоторая информация здесь .

Я не понимаю, почему pico2wave, по сравнению с espeak или mbrola, редко обсуждается. Это маленький, но звучит очень хорошо (естественно). Без изменений вы услышите естественно звучащий женский голос.

И ... по сравнению с Mbrola, он распознает единицы и говорит это правильно!
Например:

  • 2 ° C → два градуса
  • 2м → два метра
  • 2 кг → два килограмма

После установки я использую его в скрипте:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Затем запустите его с нужным текстом:

<scriptname>.sh "hello world"

или прочитайте содержимое всего файла:

<scriptname>.sh "$(cat <filename>)"

Вот и все, чтобы иметь легкий, стабильно работающий TTS на Ubuntu.

user85321
источник
1
Насколько я вижу, он использует только параметры cli в качестве входных данных. Есть ли способ получить pico2wave для чтения текста из имени файла?
Карлос Эухенио Томпсон Пинсон
13
pico2waveнаходится в пакете libttspico-utilsв последних версиях Ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101
1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Согласитесь, что этот интерфейс CLI плохой дизайн: в отличие от огромного большинства CLI, и возможно достичь максимальной длины аргумента CLI ОС .
Сиро Сантилли 新疆 改造 中心 法轮功 六四 事件
1
@ Коэн, я не знаю! :-) Как и любая другая проблема, попробуйте привести минимальный пример, например, используяecho {1..1000}
Ciro Santilli 事件 改造 中心 法轮功 六四 事件
1
@ user49557 Мы не должны угонять чужие вопросы, поэтому, возможно, вы сможете создать новый вопрос, объяснив, что именно вы установили и что пошло не так, и тогда я всегда смогу помочь вам (хотя никаких гарантий нет Я не эксперт: P)
Коен
22

Скажи это!

Я считаю, что нашел лучшее программное обеспечение TTS бесплатно, используя расширение Google Chrome под названием «SpeakIt». Это работает только в браузере Chrome для меня на Ubuntu. По какой-то причине он не работает с Chromium. SpeakIt поставляется с двумя женскими голосами, которые звучат очень реалистично по сравнению со всем остальным. В списке расширений Chrome есть еще как минимум четыре мужских и женских голоса, если вы выполняете поиск в Chrome Web Store, используя в качестве запроса "TTS".

Использование : для использования на веб-сайте. Вы выделяете текст, который хотите прочитать, и либо щелкаете правой кнопкой мыши и «SpeakIt», либо щелкаете по значку SpeakIt, закрепленному на верхней панели Chrome.


У пользователей Firefox также есть два варианта. В аддонах Firefox выполните поиск TTS, и вы должны найти «Click Speak», а также «Text to Voice». Голоса не так хороши, как голоса Chrome SpeakIt, но, безусловно, пригодны для использования.

Расширение SpeakIt использует технологию iSpeech и по цене 20 долларов в год сайт может конвертировать текст в аудиофайлы MP3. Вы можете вводить текст, URL-адреса, RSS-каналы, а также документы, такие как TXT, DOC и PDF, и выводить их в MP3. Вы можете создавать подкасты, вставлять аудио и т. Д. Вот ссылка и образец их аудио (не знаю, как долго будет длиться ссылка).

Я Сердце Ubuntu
источник
3
К сожалению, ни один из параметров браузера не работает для файлов PDF. Вы сталкивались с тем, что делает? Я хотел бы иметь возможность выбирать абзацы для чтения из PDF (то есть не нужно вставлять биты в терминал или другой)
Джеймс Оуэрс
1
это расширение работает для меня на chromium 50.0.2661.94 с использованием Debian 8.4 и это здорово! мне особенно нравится английский женский голос. Моя единственная жалоба заключается в том, что он слишком долго останавливается на запятых.
mulllhausen
Он часто неправильно произносит слова, а также требует времени, чтобы отправить текст на отдельный сервер, а не просто используя собственную систему.
Годдард
14

Пико и Эспик - это весело и легко добраться до работы, но они не так уж хороши. Фестивальные голоса по умолчанию также не так хороши. Тем не менее, Festival - это основанная на схеме речевая структура, в которой ряд исследователей создали гораздо лучшие подключаемые голоса. Вы можете легко превзойти качество pico2wave на стандартной Ubuntu, потому что один из этих голосов доступен в виде готового пакета.

Чтобы фестиваль звучал естественно, вот что нужно сделать:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Вы можете сделать это из командной строки, используя -b(или --batch) и поместив каждую команду в одинарные кавычки:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Вы можете получить другие неплохие голоса из репозитория Nitech, но их установка очень сложна, и пути по умолчанию изменены, поэтому ссылки на имена файлов в связанных файлах схемы, возможно, придется отредактировать вручную для работы на стандартной Ubuntu.

Джон Ватт
источник
2
Кстати, в Ubuntu 16.04 этот пакет, похоже, отсутствует. Вы можете загрузить и установить Deb из Debian, и он будет работать нормально: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10. 25-2_all.deb
Джон Уотт
13

Простой Google ™ TTS

Обновление со страницы проекта (2019-02) : этот проект в настоящее время не поддерживается и останется таковым в обозримом будущем.


Из-за отсутствия лучшей альтернативы я написал сценарий bash, который связывается со сценарием perl от Michal Fapso для предоставления TTS через Google Translate. Из описания проекта:

Намерение состоит в том, чтобы предоставить простой в использовании интерфейс для преобразования текста в речь через систему синтеза речи Google. Резервная опция, использующая pico2wave, автоматически обеспечивает синтез TTS в случае, если Интернет-соединение не найдено.

В настоящее время оболочка поддерживает чтение из стандартного ввода, текстовых файлов и выделения X (выделенный текст).

Основными функциями являются:

  • онлайн синтез TTS через Google переводчик
  • автономный синтез TTS через pico2wave
  • поддерживает множество разных языков
  • может читать из CLI, текстовых файлов и выделенного текста
  • поддерживает чтение выделенного текста с фиксированным форматированием (например, файлы PDF)

Установка и использование документированы на странице проекта .

Буду рад, если вы попробуете. Сообщения об ошибках и любые другие отзывы приветствуются!

Glutanimate
источник
Это должен быть один из самых крутых проектов, которые я когда-либо видел. Просто вау. User
5
Это больше не поддерживается.
Годдард
8

Я посмотрел высоко и низко для преобразования текста в речь для Ubuntu, что является высоким качеством. Здесь ничего нет. Мои голосовые связки парализованы, поэтому мне понадобился TTS, чтобы добавить голосовые инструкции к моим видео Ubuntu . Вы можете получить коммерческое высококачественное программное обеспечение для преобразования текста в речь здесь . Это просто очень дорого. В итоге я купил Natural Reader для Windows (не работает в Ubuntu под Wine) за 40 долларов. Возможно, позже я получу Linux.

Джо Стейгер
источник
чувак, есть, и я использовал его, как на прошлой неделе, по крайней мере, 5 или 6, и я не могу по жизни, найти кого-то из них сейчас, должен любить наше сообщество
mchid
У Textaloud есть инструкции, чтобы заставить их работать под вином. см. nextup.com/forum/viewtopic.php?t=3349 Я считаю, что у cepstral также есть порт linux. Мне так и не удалось заставить мою любимую программную балаболку работать. У меня Windows 10 установлен в основном для обработки TTS. М.С. Давид хорош и похож на кепстрального Давида. Предыдущий бесплатный, если у вас есть windows 10.
Bhikkhu Subhuti
6

Я проводил исследования лучшего звучания и легко настраиваемого текста в речевые голоса. Ниже приведен список пяти лучших продуктов в порядке качества звука. Большинство веб-сайтов, связанных с этим продуктом, имеют интерактивную демонстрацию, которая позволит вам принять собственное решение.

  1. NeoSpeech
  2. Ivona
  3. Acapela
  4. AT & T Natural голоса
  5. CereProc Voices
Джим
источник
1
Есть ли в наличии для Linux? я так не думаю
Мехди Хадемлу
5

Я нахожу голоса Nitech HTS на фестивале очень естественными и утешительными по сравнению с любыми другими голосами, которые я слышал. Смотрите эту ссылку о том, как настроить Nitech и другие звуки с фестиваля. Я не нашел хорошего графического интерфейса, который я мог бы использовать для настройки этих голосов, но настройка их через festival.scm все еще работает. Это сообщение очень старое, и вы, возможно, захотите найти актуальный каталог установки с помощью команды "locate festival"

бритва
источник
Кажется, это очень хорошо. Здесь можно найти демоверсии cstr.ed.ac.uk/projects/festival/onlinedemo.html
Иахус,
2
Да, голоса Nitech на голову выше других голосов Фестиваля (кроме голосов CMU, которые тоже очень хороши.) Жаль, что их сложно установить. Есть один хороший голос CMU, который имеет пакет по умолчанию в Ubunut, он называется cmu_us_slt_arctic_hts и входит в пакет festvox-us-slt-hts. Это намного лучше, чем пико или разговоры!
Джон Уотт
5

Объедините инструменты SVOX (пико) с LibreOffice:

Инструменты SVOX (pico) просты в установке и обеспечивают хорошее качество голоса в Ubuntu. Установите это:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив расширение «Читать текст», и вы получите «GUI» для этого превосходного программного обеспечения TTS:

Настройте параметры чтения текстового расширения с помощью Сервис - Дополнения - Чтение выделения .... Используйте / usr / bin / python в качестве внешней программы. Выберите параметр командной строки, который включает токен (PICO_READ_TEXT_PY) , вы можете поэкспериментировать с некоторыми из них.

Теперь вам нужно только выбрать какой-нибудь текст в LO Writer, Calc, Impress или Draw и щелкнуть по значку, добавленному в качестве панели инструментов (счастливое лицо с шариком).

leoperbo
источник
4

Вот что я сделал, чтобы иметь чистую естественную речь для PDF и других текстовых файлов (другие решения не являются естественными, или они просто платные услуги). На самом деле это обходной путь с использованием хрома или хрома, но работает быстро и легко.

  1. Установите SpeakIt! расширение на ваш хром или хром.
  2. Установите PDF Viewer, если вы используете Chromium (Chrome уже имеет программу просмотра PDF бесплатно) и отметьте опции «Разрешить в инкогнито» и «Разрешить доступ к URL-адресам файлов» в настройках расширений Chromium.
  3. Перетащите PDF-файл в браузер.
  4. Теперь выделите текст и щелкните правой кнопкой мыши и выберите SpeakIt! так что вы можете слушать чистый натуральный текст в речь.

Также есть способы открыть другие файлы, такие как .doc и .txt, в chrome и сделать то же самое. Есть другие расширения для chrome, которые просматривают PDF-файлы, проверьте, подходит ли вам это лучше. Кроме того, вы можете загружать все виды текстов в Google Drive и использовать SpeakIt! читать это для вас. Другое расширение под названием «Говорить текст» работает так же и имеет естественную речь.

Pouya Sanooei
источник
Не могли бы вы рассказать, как заставить SpeakIt читать файлы PDF, сохраненные на Google Диске?
Марко Лацкович,
2

При поиске лучшего движка tts для использования с новым режимом повествования firefox 49 я нашел pico tts (svox) - мой любимый движок TTS.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Как изменить стандартную систему синтеза речи по умолчанию?

Люди в Arch Linux привели меня на правильный путь:

Раскомментируйте понравившийся модуль и установите его по умолчанию в настройках диспетчера речи:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Перезапустите демон:

# sudo systemctl restart speech-dispatcher.service

НО, при повторном запуске firefox ничего не происходит. По ссылке выше (арка на форуме № 10 и № 16) работает с фестивалем (не пробовал), но речевой диспетчер для пико не перечисляет доступные голоса. Это не будет работать.

Любая идея там будет высоко ценится ;-)

APOS
источник
1

Моя любимая программа преобразования текста в речь называется Magic English, но, как и Natural Reader, упомянутый Джо Стейгером, это программа для Windows, и я не уверен, будет ли она работать под Wine.

AT & T Natural Voices доступна в режиме онлайн в качестве демонстрации, но это скорее обходной путь, чем решение ...

Крис Грейнджер
источник
1

Простой Google ™ TTS

Пико, mbrola, cmu, фестиваль, флайт, все сосут в 2017 году (они были потрясающими в 90-х). Естественная речь AT & T (что фантастично) не совместима с Linux и не бесплатна, поэтому мы используем Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
Джонатан
источник
Это дубликат ответа Glutanimate (автор этого проекта). Также: «Обновление статуса: этот проект в настоящее время не поддерживается и останется таковым в обозримом будущем». Он предлагает несколько альтернатив
Пабло А
1

ГТЦ

gTTS ( Google Text-to-Speech ), библиотека Python и инструмент CLI для взаимодействия с API преобразования текста в речь Google Translate. Записывает произнесенные mp3данные в файл, файлоподобный объект (bytestring) для дальнейшей обработки звука или stdout.

Минусы : только для CLI. Нужно быть в сети, как это требуется для запроса к общедоступной открытой конечной точке Google.

sudo -H pip install gTTS  # Install

использование

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Документация и другие примеры

другие

Некоторые уже упоминались

Пабло А
источник
0

Для этого я создаю Intelligent Speaker - расширение для Google Chrome. Он может читать страницы даже без выделения (когда текст задержание правильно).

Виталий Зданевич
источник