Приложение распознавания речи для преобразования MP3 в текст?

27

Кто-нибудь знает приложение, которое может конвертировать аудио в текст? Я использую Ubuntu 12.04 LTS.

Копано
источник
Я предполагаю, что это устный текст. На каком языке этот текст?
Мартин Уединг
Текст речи на простом английском языке.
Копано

Ответы:

21

Программное обеспечение, которое вы можете использовать - CMUSphinx . В отличие от предложенного в другом ответе Юлиус не подходит, так как требует моделей. Модели для распознавания речи с большим словарным запасом не доступны для Юлиуса.

Вы можете использовать pocketsphinx для конвертации аудио файла. Эти две команды должны сделать работу. Сначала вы конвертируете файл в нужный формат, а затем узнаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Бегущий карманный сфинкс

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Результат будет сохранен в файле result.txt.

Николай Шмырев
источник
Кроме того, в дополнение к этому ответу, здесь есть speech recognitionvoice command
отличная
Как добавить акустическую модель в систему?
Ярно
Вы просто скачиваете и распаковываете, такого понятия, как «добавить в систему», не существует
Николай Шмырев
@NikolayShmyrev Где я должен распаковать это так, чтобы pocketsphinx_continuous нашел это?
Ярно
4
Итак, я установил пакеты pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj и pocketsphinx-lm-en-hub4 в хранилище юниверсов Ubuntu 14.04. Потом pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logсработало. Возможно, они не являются оптимальными пакетами, но они были лучшими совпадениями, которые я мог найти в репозиториях.
Ярно
12

Я знаю, что это старо, но чтобы расширить ответ Николая и, надеюсь, сэкономить кому-то время в будущем, для того, чтобы получить актуальную версию pocketsphinx, вам нужно скомпилировать ее из репозитория github или sourceforge (не уверен который постоянно обновляется). Обратите внимание, что -j8 означает выполнение 8 отдельных заданий параллельно, если это возможно; если у вас больше процессорных ядер, вы можете увеличить их количество.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Затем: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ загрузите новейшие версии cmusphinx-en-us-....tar.gzиen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Тогда, наконец, вы можете перейти к шагам из ответа Николая:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Сфинкс работает хорошо. Я бы не стал полагаться на это, чтобы сделать читабельную версию текста, но это достаточно хорошо, что вы можете искать его, если вы ищете конкретную цитату. Это особенно хорошо работает, если вы используете алгоритм поиска, такой как Xapian ( http://www.lesbonscomptes.com/recoll/ ), который принимает подстановочные знаки и не требует точных поисковых выражений.

Надеюсь это поможет.

Джонатан Перри-Хаутс
источник
4
каждая вещь работает как шарм, но в моем случае я должен был выполнить следующую команду, чтобы исправить pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Виджай Доаре
Это также рекомендуется по адресу cmusphinx.github.io/wiki/tutorialpocketsphinx/…
andrybak
11

Если вы хотите преобразовать речь в текст, попробуйте открыть свой Ubuntu Software Center и найти Julius

Описание

"Julius" - это высокопроизводительное двухпроходное программное обеспечение для декодирования с большой лексикой непрерывного распознавания речи (LVCSR) для исследователей и разработчиков, связанных с речью.

Или другой вариант, которого нет в Центре программного обеспечения, это Саймон

... является программой распознавания речи с открытым исходным кодом и заменяет мышь и клавиатуру.

Ссылки Ссылки

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
источник
1

Вы можете использовать панель транскрипции speechpad.pw

Смотрите видео об использовании транскрипции

алексей
источник
Это выглядит круто, хотя я не думаю, что это отвечает на вопрос, который должен был получить транскрипцию существующего файла. При этом, я только что попробовал Сфинкс, и он с треском провалился ... транскрипция была на 99,9% неправильной.
Алексис Вилке