Краткая версия вопроса: я ищу программное обеспечение для распознавания речи, которое работает на Linux и имеет приличную точность и удобство использования. Любая лицензия и цена в порядке. Он не должен ограничиваться голосовыми командами, так как я хочу иметь возможность диктовать текст.
Больше деталей:
Я неудовлетворительно пробовал следующее:
- CMU Sphinx
- CVoiceControl
- Уши
- Юлий
- Kaldi (например, сервер Kaldi GStreamer )
- IBM ViaVoice (раньше работал на Linux, но был прекращен несколько лет назад)
- NICO ANN Инструментарий
- OpenMindSpeech
- RWTH ASR
- окрик
- Silvius (построен на инструментах распознавания речи Kaldi )
- Саймон слушает
- ViaVoice / Xvoice
- Вино + Dragon NaturallySpeaking + NatLink + Стрекоза + стрекоза
- https://github.com/DragonComputer/Dragonfire : принимает только голосовые команды
Все вышеупомянутые нативные Linux-решения имеют как низкую точность, так и удобство использования (или некоторые из них не допускают диктовки в виде свободного текста, а только голосовые команды). Под низкой точностью я подразумеваю точность, значительно меньшую той, которую имеет программное обеспечение для распознавания речи, которое я упоминал ниже для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает падать, и, к сожалению, я не единственный, у кого такие проблемы.
В Microsoft Windows я использую Dragon NaturallySpeaking, в Apple Mac OS XI использую Apple Dictation и DragonDictate, в Android я использую распознавание речи Google, а в iOS я использую встроенное распознавание речи Apple.
Baidu Research выпустила вчера в код для его библиотеки распознавания речи с использованием Коннекшионистского Temporal Классификации реализована с факелом. Тесты от Gigaom обнадеживают, как показано на скриншоте ниже, но я не знаю ни одной хорошей обертки, чтобы сделать ее пригодной для использования без некоторого кодирования (и большого набора обучающих данных):
Существует несколько альфа-проектов с открытым исходным кодом:
- https://github.com/mozilla/DeepSpeech (часть проекта Mozilla's Vaani: http://vaani.io ( зеркало ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, система для управления системой Linux с использованием Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (будет выпущен Google, упоминается на Interspeech 2018)
Мне также известна эта попытка отслеживания состояния искусства и недавние результаты (библиография) по распознаванию речи. а также этот эталон существующих API распознавания речи .
Мне известно об Aenea , который позволяет распознавать речь через Dragonfly на одном компьютере для отправки событий на другой, но у него есть некоторая задержка:
Мне также известны эти два доклада, посвященные изучению возможностей Linux для распознавания речи:
источник
Ответы:
Прямо сейчас я экспериментирую с использованием KDE Connect в сочетании с распознаванием речи Google на моем смартфоне Android.
KDE connect позволяет использовать ваше устройство Android в качестве устройства ввода для вашего компьютера с Linux (есть и другие функции). Вам нужно установить приложение KDE connect из магазина Google Play на своем смартфоне / планшете и установить на вашем компьютере Linux и kdeconnect, и индикатор-kdeconnect. Для систем Ubuntu установка происходит следующим образом:
Недостатком этой установки является то, что она устанавливает кучу пакетов KDE, которые вам не нужны, если вы не используете среду рабочего стола KDE.
После того, как вы подключите свое устройство Android к компьютеру (они должны быть в одной сети), вы можете использовать клавиатуру Android, а затем щелкнуть / нажать на микрофоне, чтобы использовать распознавание речи Google. Во время разговора текст начнет появляться там, где на вашем компьютере с Linux активен курсор.
Что касается результатов, они немного смешаны для меня, так как в настоящее время я пишу некоторый технический астрофизический документ, а распознавание речи в Google борется с жаргоном, который вы обычно не читаете. Также забудьте об этом, выясняя пунктуацию или правильную прописную букву.
источник
На данный момент в Linux работает только ноутбук Voice .
источник
Как еще один Linuxer, ищущий полезную программу преобразования речи в текст, я посмотрел на speechpad.pw:
Недостатки:
Итак, speechpad.pw является очень проприетарным и закрытым исходным кодом, а также связан с Google, который мы все знаем как бессонные метаданные, сборщик личной информации и личного контента.
Эти недостатки делают его неприемлемым для меня, хотя само распознавание речи работает очень хорошо - намного лучше, чем все остальное, что я видел до сих пор.
источник
Приложение Chrome "VoiceNote II" ( http://voicenote.in/ ) прекрасно работает на моем компьютере Xubuntu 16.04. Обучение голосу не требуется, и настройка была простой. Один поиск, чтобы найти его, один щелчок, чтобы установить, один щелчок, чтобы создать ярлык и привязать его к рабочему столу.
источник
Я бы предложил использовать дракона на вашем телефоне или планшете, а затем отправить текст по электронной почте. Это сопротивление, но это работает и очень точно. Если вы настаиваете на использовании Linux для этого, получение второго дисплея значительно упростит копирование и прохождение.
Я не пробовал этого, но вы можете использовать или адаптировать программу Python Bluetooth Chat с помощью dragon на своем планшете / телефоне. Также могут быть приложения удаленной клавиатуры для мобильных устройств, которые могут поддерживать диктовку.
Я буду экспериментировать и попытаюсь ответить вам чем-то более определенным.
источник
Я использую приложение KD Connect. это работает довольно эффективно! Я могу следить за монитором, разговаривая с телефоном на столе. Единственным недостатком является то, что это делается с помощью клавиатуры Google. он не является ни бесплатным, ни родным, ни открытым исходным кодом. Этот комментарий был опубликован без каких-либо исправлений
источник
Вы можете использовать речь к тексту в приложении Linux. Это приложение использует Google Speech Api и модуль двоичной интеграции для 32- или 64-разрядной версии Linux. Вы можете увидеть краткую презентацию использования инструментов speechpad.pw в Ubuntu
источник