Драйвер ForwardTacotron TTS
- Автор: 'Mateo Cedillo
- Исходный код дополнения: Посетить Web-сайт ForwardTacotron
Краткое описание
Дополнение ForwardTacotron - это драйвер добавляющий поддержку модели синтеза речи ForwardTacotron для NVDA.
Используется сервер flask.
Основная информация
Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
---|---|---|---|---|---|---|---|
ForwardTacotron | 0.1a1 | 2023.1 | 2023.1 | 2019.3 | 23-09-2023 22:44:20 | 209 Кб. | GPL v2 |
Информация о локализации на русский язык
- Локализация от: Разработчик или другой переводчик
- Перевод: Да
- Перевод интерфейса: Да
- Перевод справки: Да
Скачать
ForwardTacotron-V.0.1a1.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
Драйвер ForwardTacotron TTS
ForwardTacotron и HiFi-GAN поддержка NVDA Screen reader
**Примечание: данное дополнение, а также документация находятся в стадии разработки. Ваш вклад приветствуется!
введение
Напомним, что ForwardTacotron - это модель синтеза речи в pytorch, которая использует предиктор длительности для выравнивания текста и генерируемых mel-спектрограмм. Модель обладает такими преимуществами, как робастность, скорость, возможность работы с питчем и энергией, а также эффективность.
Итак, данный плагин является попыткой реализовать поддержку ForwardTacotron в открытом скринридере NVDA через клиент/сервер, поскольку библиотеки, используемые в качестве torch, невозможно включить в NVDA напрямую.
Работа в этом направлении продолжается, и поэтому предстоит еще многое сделать.
Тем временем вы можете послушать, что уже сделано.
audio samples
Язык | Голос | Образец |
---|---|---|
English | LJSpeech (с вокодером griffinLim) | |
English | LJSpeech (с вокодером HiFi-GAN) | |
Spanish | Ald Dataset (с HiFi-GAN вокодером) | |
Spanish | Odal (с вокодером HiFi-GAN, универсальная модель) |
сделать:
- [x] Способ компиляции и интеграции сервера в дополнение.
- [x] При этом разрешить серверу открываться при загрузке синтезатора. После загрузки сервера мы можем вызвать check, чтобы сделать синтезатор речи готовым к использованию.
- [x] Для дополнения можно сделать две версии - с поддержкой CPU и с поддержкой GPU, так как, очевидно, синтез генерируется в реальном времени на GPU. Пока же мы можем заметить замедление работы на CPU.
- [x] Поддержка изменения голоса и энергии в опциях кольца синтезатора.
- [x] В данный момент дополнение использует httplib2 для связи с сервером, но я могу поискать другие методы и при необходимости переписать часть сервера.
- [x] Добавить поддержку загрузки различных голосов, которые могут быть обнаружены в папке "voice_models".
- [x] С помощью этого можно добавить поддержку загрузки обученных моделей. У нас есть модель ljspeech на английском языке, еще одна на немецком и две на испанском.
- [x] Для новых моделей с несколькими дикторами она может считывать настройки для проверки, и если это так, то выбирать голос из опций синтезатора, предварительно ознакомившись с именами дикторов в модели.