Как преобразовать текст в речь, используя командную строку?

84

Как получить речевой вывод из введенного текста с помощью командной строки?

Также есть возможность изменять скорость речи, высоту, громкость и т. Д. С помощью простой команды .

Pandya
источник

Ответы:

125

В порядке убывания популярности :

  • say преобразует текст в слышимую речь с помощью речевого движка GNUstep.

    sudo apt-get install gnustep-gui-runtime
    say "hello"
    
  • Фестиваль общей многоязычной системы синтеза речи.

    sudo apt-get install festival
    echo "hello" | festival --tts
    
  • spd-say отправляет запрос вывода текста в речь в диспетчер речи

    sudo apt-get install speech-dispatcher
    spd-say "hello"
    
  • espeak - это многоязычный программный синтезатор речи.

    sudo apt-get install espeak
    espeak "hello"
    
Сильвен Пино
источник
13
spd-sayПо-видимому, он был предварительно установлен в 14.04 и позже: releases.ubuntu.com/trusty/…
Сиро Сантилли 事件 改造 中 '法轮功 六四 事件
3
Кроме того sudo pip install gTTS, (Google Text to Speech / github.com/pndurette/gTTS ), то gtts-cli "hello" -o hello.mp3вы также можете направить его на канал mpg123 -. gtts-cli "why, hello there" | mpg123 -,
Элайджа Линн
к сожалению, spd-sayкажется, не в состоянии играть в ттс одновременно, только по одному разу
phil294
@ElijahLynn не работает
Димс
espeak/ spd-sayлучше всего подходит для мемов (другие даже не могут правильно произнести слово «мем»). Лучшее, что я могу сказать, spd-sayиспользует в espeakкачестве бэкэнда (голоса звучат одинаково).
QwertyChouskie
18

espeak хороший маленький инструмент.

Мне просто нравится играть с ним в командной строке. Вы можете столкнуться с конфликтом с Pulseaudio, поэтому я использую длинную версию, которая сводит на нет необходимость ее правильной настройки.

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help покажет вам варианты калибровки скорости чтения, высоты тона, голоса и т. д.

Когда вы делаете свои заметки, сохраните их как текстовый файл и затем:

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

Затем вы можете поиграть с ffmeg и др., Чтобы сжать это с PCM до чего-то более управляемого, такого как MP3 или OGG. Но это другая история.

Оли
источник
1
очень хорошо, можно также попробовать графический интерфейс пользователя для espeak, espeak-gui.
Сабакон
14

От man spd-say:

ИМЯ
       spd-say - отправляет запрос вывода текста в речь в диспетчер речи

СИНТАКСИС
       spd-say [options] "некоторый текст"

ОПИСАНИЕ
       spd-say отправляет запрос вывода текста в речь в процесс диспетчера речи, который обрабатывает его и в идеале выводит результат
       к аудиосистеме.

ПАРАМЕТРЫ
       -r, --rate
              Установите скорость речи (от -100 до +100, по умолчанию: 0)

       -p, --pitch
              Установите высоту речи (от -100 до +100, по умолчанию: 0)

       -i, --volume
              Установите громкость (интенсивность) речи (от -100 до +100, по умолчанию: 0)

Следовательно, вы можете получить текст в речь с помощью следующей команды:

spd-say "<type text>"

Пример:

spd-say "Welcome to Ubuntu Linux"

Вы также можете установить скорость речи, высоту звука, громкость и т. Д., См. Справочную страницу.

Pandya
источник
3
spd-say -t female2 "text"делает это терпимым
Scorpiodawg
6

Мброла не работает с 11.10.

Инструменты SVOX (pico) просты в установке, использовании и обеспечивают хорошее качество голоса в Ubuntu. Установите это:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Еще проще, вы можете использовать LibreOffice в сочетании с инструментами SVOX (pico), установив расширение «Читать текст», и вы получите «GUI» для этого превосходного программного обеспечения TTS:

Настройте параметры чтения текстового расширения с помощью Сервис - Дополнения - Чтение выделения .... Используйте / usr / bin / python в качестве внешней программы. Выберите параметр командной строки, который включает токен (PICO_READ_TEXT_PY).

leoperbo
источник
4

Python Google Speach:

pip install google_speech

google_speech "Test the hello world"

Svox от Android:

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

Свокс Наноттс:

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

Ссылки - Wiki:

Сравнение речевых синтезаторов

intika
источник
1
Для того, чтобы установить и использовать google_speechна Ubuntu 18.04 я должен был установить python3-pipи libsox-fmt-mp3и использовать pip3 install google_speech.
artm
3

И еще один espeak gui gespeaker. Он использует espeakи mbrolaдвигатели. Кроме того, он имеет больше возможностей, чем espeak-gui.

Лури
источник
3

Следующее не является решением FLOSS, но вы можете найти его стоящим. (это винный раствор),

Лично я очень заинтересован в TTS, я использую его довольно часто ... например. слушая бессвязный дискурс, который я никогда бы не стал придерживаться иным образом (потому что мне нужно выпить еще одну чашку кофе ... :)

Несколько вещей, которые я обнаружил на этом пути ... или я должен сказать, вещи, которые я не обнаружил на этом пути ... Если говорить прямо: каждая часть голосового программного обеспечения FOSS TTS, которую я пробовал, находится под номиналом, и поэтому непригоден для любого полу-затяжного прослушивания ...

В настоящее время я использую NaturalVoices ATnT. Он доступен только для Windows (может быть, Mac), но работает wineв Ubuntu .. (он имеет незначительный глюк, где мне иногда нужно нажимать на панель, когда я отхожу от читателя ... Это незначительный проблема по сравнению с преимуществом, получаемым от качества речи от NatualVoices.

Некоторые другие вещи, которые я нахожу практически необходимыми для полусмысленного прослушивания, являются ...

  1. Эти программы TTS не умны (ну, может быть, такие же умные, как молодые бабуины) ... поэтому им нужна всяческая помощь, которую они могут получить. и есть одна (и только одна программа Reader, которую я нашел, которая очень помогает в этом .. Приложение называется ReadPlease (2003 Pro)... Оно позволяло вам специально изменять слова и группы слов так, чтобы они произносились так, как вы хотите ... ни в коем случае не идеально, но для меня, это сделало разницу между тем, что весь процесс можно использовать и не использовать ...

  2. Речь в Natural Voices "хорошо", но это немного скучно. Есть и другие хорошие продукты, но, к сожалению, все они для Windows).
    Иногда это удивительно хорошо. Но, боже мой, изначально это боль! ... так что # 2 - это * терпение ... и множество обновлений вашего списка "особых слов" ... Под терпением я имею в виду, что вы (я) на самом деле привыкли к речевым моделям моего конкретного павиана :)) ... и к кстати, у меня в настоящее время есть около 3000 слов, которые сейчас звучат достаточно «человечески», и я больше не дрожу, когда слышу их.

    3 .. «Следуй за прыгающим мячом» ... Опять же, потому что голос никогда не так хорош, как реальный оратор, иногда нужно что-то прояснить ... У программы Reader, которую я использую, есть одна особенность, которую я даже смирился с ее неуклюжим интерфейсом .... Is имеет опцию «выбрать читаемое в данный момент» слово. У многих читателей есть такая возможность, но ReadPlease поддерживает текущую строчку. центр экрана. Это неоценимо, чтобы иметь возможность видеть впереди и сзади, чтобы быстро перечитать то, что вы только что пропустили (так что автоматическое центрирование текущей строки хорошо) ...

Ну, это мой опыт ... Я собираюсь приготовить кофе сейчас, и пока я делаю это, я буду слушать это, чтобы увидеть, как он "читает" .... TTS удивительно хорош для того, чтобы взять его опечатки (я делаю много опечаток) ...

Если в репозитории Ubuntu появится что-то хорошее, как ATnT NaturalVoices, я попробую это сделать.

Вот ссылка на некоторые образцы Natural Voices : я использую "MIke"

Peter.O
источник
3

SVOX pico2wave

это то, что я использую. И это звучит естественно, это легко понять, он распознает единицы (м, ° C, кг, ...)

Вот мой первый пост на pico2wave

Естественно звучащий текст в речь?

Все, что вам нужно сделать, это:

Перейдите в Центр программного обеспечения Ubuntu и найдите «pico». Вы найдете 4 или 5 записей с "Small Footprint Ling ...". Установите их.

Возможное использование pico2wave описано в моей первой публикации (перейдите по ссылке выше).

до свидания

user85321
источник
Я использовал ваш путь. Можете ли вы сказать мне, как получить естественный сладкий женский голос, используя ваш путь
user49557
3

Для festival(голос кажется более естественным для меня):

sudo apt-get install festival

echo "hello" | festival --tts

Настройка шага и скорости:

создать ~/.festivalrc:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100") (Parameter.set 'Audio_Method 'Audio_Command)

Смотрите также http://www.solomonson.com/content/ubuntu-linux-text-speech

Обновление: пробовал на другом компьютере с Ubuntu. Пришлось установить пакет речевого движка английского языка, чтобы правильно работать с фестивалем:

sudo apt-get install festvox-kallpc16k

Также playесть команда cli, которая поставляется с soxpackage:

sudo apt-get install sox

d9k
источник
2

Даже если вы уже приняли ответ, я хотел бы упомянуть festival, что мне тоже очень нравится. Этот пост на форумах Ubuntu содержит много информации о том, как настроить очень хорошие голоса.

радостный
источник
2

Знакомьтесь espeak-ng- многоязычный программный синтезатор речи:

espeak-ng "text to read"
espeak-ng -f "~/file to read"

Он использует голос по умолчанию на английском языке, но существует множество других голосов для других языков и даже доступных диалектов, которые могут быть перечислены с espeak-ng --voices(для всех) или, например, espeak-ng --voices=en(для английского). Они могут быть установлены -vвместе с сокращением языка или именем файла, например, для шотландского или суахили:

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

Есть много других доступных опций, например, -sдля скорости и -wдля записи выходных данных в волновой файл, см. Ссылку на справочную страницу ниже.

дальнейшее чтение

espeak-ng(«Ng» для «следующего поколения») - это активно разработанный форк оригинального espeakпрограммного обеспечения синтезатора речи , см. Главу «История» в Википедии . Оба доступны из официальных источников через пакет espeakили espeak-ngсоответственно.

Десерт
источник
0

Balabolka под Wine прекрасно работает (для меня) с голосами SAPI4 (голоса SAPI5 не обнаруживаются в моей системе Linux). Он может открывать файлы и начинать чтение.

Вот ссылка на запись AppDB для вина для Балаболки: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859

Хеманткумар Гарач
источник
0

Инструмент gTTS отлично подходит для генерации аудио файлов из текста. Он использует API преобразования текста в речь Google Translate и генерирует mp3-файлы.
Учитывая, что он использует pipдля установки, я настоятельно рекомендую вам установить Miniconda, а затем использовать condaдля создания среды, где вы можете установить gTTS. Вы можете скачать Miniconda отсюда:

https://docs.conda.io/en/latest/miniconda.html

GitHub репозиторий для gTTS:

https://github.com/pndurette/gTTS

И вы можете найти документацию gTTS здесь:

https://gtts.readthedocs.io/en/latest/

evaristegd
источник