VoskSTT (Движок для оффлайнового распознавания речи)
- Автор: 'Alpha Cephei Inc
- Исходный код дополнения: Посетить Web-сайт VoskSTT
Краткое описание
Дополнение VoskSTT - это автономный инструмент распознавания речи с открытым исходным кодом.
Для работы этого движка необходимо установить офлайн голосовую модель в виде отдельного дополнения.
В диалоге «Жесты ввода» в подкатегории Vosk STT назначается свободное сочетание клавиш для команды «Запускает или останавливает распознавание речи».
Теперь после первого вызова этой команды нужно сказать что-нибудь в микрофон по умолчанию, после чего повторным вызовом остановить запись.
NVDA произнесет распознанный текст и поместит его в буфер обмена.
Диалог настроек можно открыть через меню NVDA , СЕрвис, Настройки Vosk STT.
Там можно выбрать модель распознавания, используемый микрофон и включить/отключить звуковой сигнал в начале записи.
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| VoskSTT | 2025.10.23 | 2025.1 | 2026.1 | 2024.1 | 02-11-2025 23:51:56 | 19946 Кб. | GPL v2 |
Информация о локализации на русский язык
- Локализация от: Разработчик или другой переводчик
- Перевод: Да
- Перевод интерфейса: Да
- Перевод справки: Да
Скачать
VoskSTT-V.2025.10.23.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
VoskSTT (Движок для оффлайнового распознавания речи)
- Автор: Kvark (Александр Линьков)
Интересно стало посмотреть, что сейчас есть для оффлайнового распознавания речи через нейросети. Алиса из Яндекса подсказала, что существует проект под названием Vosk: https://alphacephei.com/vosk/ Решил прикрутить эту штуку к NVDA, авось кому-нибудь окажется полезно. Результат прикрепляю к данному сообщению. https://t.me/nvda_group/60655
Порядок установки:
Сначала устанавливается основной движок распознавания (файл VoskSTT.nvda-addon), а затем доустанавливается модель распознавания для целевого языка.
Использование:
В диалоге «Жесты ввода» в подкатегории Vosk STT назначается свободное сочетание клавиш для команды «Запускает или останавливает распознавание речи».
Теперь после первого вызова этой команды нужно сказать что-нибудь в микрофон по умолчанию, после чего повторным вызовом остановить запись. NVDA произнесет распознанный текст и поместит его в буфер обмена.
Диалог настроек можно открыть через меню NVDA -> СЕрвис -> Настройки Vosk STT. Там можно выбрать модель распознавания, используемый микрофон и включить/отключить звуковой сигнал в начале записи.
Голосовые модели:
С движком VoskStt были протестированны маленькие голосовые модели средним размером от 30 до 300 Мб.
Примечание от руководителя русскоязычного сообщества:
Целевые языковые модели можно загрузить в виде дополнений на следующей странице в русском каталоге дополнений. Кроме того они доступны через дополнения RuStore и Store, а также TiendaNVDA с добавленным русским сервером. Найти все модели можно по запросу «VoskSTT». Мною было собрано 34 малых языковых моделей для следующих доступных языков:
- Арабский тунисский.
- Каталанский.
- Китайский.
- Чешский.
- Немецкий.
- Индийский английский.
- Английский.
- Эсперанто.
- Испанский.
- Фарси.
- Французский.
- Гуджарати.
- Хинди.
- Итальянский.
- Японский.
- Корейский.
- Киргизский.
- Казахский.
- Нидерландский.
- Польский.
- Португальский.
- Русский.
- Шведский.
- Телугу.
- Таджикский.
- Турецкий.
- Украинский.
- Узбекский.
- Вьетнамский.
Примечание по некоторым языкам:
- "Arabic Tunisian" → "Арабский тунисский" (диалект арабского языка в Тунисе)
- "Catalan" → "Каталанский" (официальный язык Каталонии)
- "Indian English" → "Индийский английский" (вариант английского языка в Индии)
- "Esperanto" → "Эсперанто" (международный искусственный язык)
- "Farsi" → "Фарси" (персидский язык)
- "Gujarati" → "Гуджарати" (язык в штате Гуджарат, Индия)
- "Telugu" → "Телугу" (язык в Индии, официальный в штатах Андхра-Прадеш и Телангана)
- "Dutch" → "Нидерландский" (официальное название голландского языка)
Большие языковые модели из-за слишком большого размера не были собраны и размещены в магазине дополнений. Их можете собрать самостоятельно по образу и подобию уже собранных моделей. Также имейте ввиду следующие: большие модели при своей работе используют до 16 ГБ оперативной памяти. Следовательно, для их запуска обязательно требуется 64-разрядная версия NVDA. 32-разрядные приложения не могут адресовать более чем 4 ГБ.
Все модели большие и маленькие в zip-архивах можно загрузить на сайте разработчика. https://alphacephei.com/vosk/models
Пожертвование
Если вам понравилось это дополнение, и вы хотите выразить благодарность его автору, то сделать это можно переводом любой суммы на следующий кошелёк YooMoney: https://yoomoney.ru/to/410012293543375
История версий:
2025.10.23
Первоначальный выпуск.