NativeSpeechGeneration (Нативная генерация речи)
Автор:- Исходный код дополнения: Посетить Web-сайт NativeSpeechGeneration
Краткое описание
Используйте мощь передового искусственного интеллекта Google Gemini для генерации высококачественной речи непосредственно в NVDA. Это дополнение предоставляет удобный диалог для преобразования текста в естественно звучащее аудио.
Ключевые возможности:
Высококачественные голоса: Выбирайте между Gemini Pro для премиального, реалистичного звучания и Gemini Flash для стандартного качества и быстрой генерации.
Режимы для одного и нескольких говорящих: Легко создавайте аудио для одного говорящего или создавайте динамические диалоги с двумя различными голосами. Просто форматируйте текст как ИмяГоворящего: для назначения голосов.
Расширенное управление голосом: Тонко настраивайте вывод, регулируя параметр температура для более креативных или стабильных результатов, а также задавая пользовательские инструкции по стилю.
Доступный интерфейс: Все элементы управления полностью доступны, включая свёртываемую панель для расширенных настроек, что делает интерфейс чистым и удобным для навигации.
Бесшовный рабочий процесс: Дополнение обеспечивает мгновенное воспроизведение аудио после генерации и позволяет сохранять полученный файл .wav для последующего использования.
Чтобы начать, получите Gemini API-ключ в Google AI Studio и введите его на панели настроек дополнения, которая находится в меню Сервис NVDA.
Сочетание клавиш можно изменить в жестах ввода, в категории «Нативная генерация речи».
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| NativeSpeechGeneration | 1.5.1 | 2025.1 | 2025.3.2 | 2024.1 | 12-01-2026 17:56:01 | 435 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
NativeSpeechGeneration-V.1.5.1.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
Native Speech Generation для NVDA
Автор: Muhammad Gagah muha.aku@gmail.com
Native Speech Generation — это дополнение для NVDA, которое интегрирует Google Gemini AI для генерации высококачественной, естественно звучащей речи непосредственно в NVDA. Оно предоставляет чистый, полностью доступный интерфейс для преобразования текста в аудио, поддерживая как одноголосое повествование, так и динамические диалоги с несколькими голосами.
Это дополнение предназначено для плавного рабочего процесса, взаимодействия с приоритетом доступности и гибкого управления голосом, подходящего для озвучки, диалогов и создания аудиоконтента.
Возможности
Генерация высококачественной речи
-
Выбор между:
- Gemini Flash — стандартное качество, быстрая генерация, низкая задержка.
- Gemini Pro — премиум, более реалистичные голоса (платная модель).
Режимы для одного и нескольких голосов
- Одноголосое повествование для стандартного преобразования текста в речь.
- Режим с несколькими голосами (2 голоса) для диалогов с различными голосами.
Расширенное управление голосом
-
Именование говорящих Назначайте пользовательские имена (например, Иван, Мария) в режиме нескольких голосов. ИИ автоматически сопоставляет голоса на основе имён говорящих в сценарии.
-
Инструкции по стилю Указывайте подсказки, такие как «Говори веселым тоном» или «Рассказывай спокойно», чтобы направить манеру речи.
-
Управление температурой (Temperature) Настраивайте вариативность и креативность вывода:
- Низкие значения → более стабильная и предсказуемая речь.
- Высокие значения → более выразительная и разнообразная речь.
Доступный и чистый интерфейс
- Полностью доступен для скринридеров.
- Расширенные опции расположены на свёртываемой панели, чтобы сохранить главное диалоговое окно простым и сфокусированным.
Бесшовный рабочий процесс
- Аудио воспроизводится автоматически после генерации.
- Сгенерированное аудио можно воспроизвести повторно или сохранить как высококачественный файл
.wav. - Разработано для минимального трения при повторной генерации и воспроизведении.
Умная загрузка и кэширование голосов
- Доступные голоса динамически загружаются из API Gemini.
- Данные голосов кэшируются на 24 часа, чтобы уменьшить количество обращений к API и ускорить запуск.
Общение с ИИ (живой разговор)
- Голосовой чат в реальном времени: Ведите естественный, разговор с Gemini с низкой задержкой.
- Привязка к Google Поиску: Позвольте ИИ получать актуальную информацию из интернета во время чата.
- Прерываемый: Вы можете прервать ИИ в любой момент, начав говорить или нажав «Остановить разговор».
- Настраиваемый: Использует выбранный вами голос и инструкции по стилю.
Требования
- NVDA (рекомендуется последняя версия).
- Активное интернет-соединение.
- Действующий Google Gemini API-ключ.
Установка
- Загрузите последнюю версию пакета дополнения со страницы релизов: https://github.com/MuhammadGagah/native-speech-generation/releases
- Установите его как любое стандартное дополнение NVDA.
- Перезапустите NVDA при запросе.
Настройка API-ключа (Обязательно)
- Создайте API-ключ в Google AI Studio: https://aistudio.google.com/apikey
- Откройте NVDA и перейдите: Меню NVDA → Сервис → Native Speech Generation
- Нажмите «Настройки API-ключа».
- Это откроет настройки NVDA непосредственно в категории Native Speech Generation.
- Вставьте ваш Gemini API-ключ в поле GEMINI API Key.
- Нажмите OK для сохранения.
Как использовать
Откройте диалоговое окно, используя:
- NVDA+Control+Shift+G, или
- Меню NVDA → Сервис → Native Speech Generation
Основные элементы интерфейса
-
Текст для преобразования Введите или вставьте текст, который хотите преобразовать в речь.
-
Инструкции по стилю (опционально) Укажите рекомендации по тону, эмоциям или манере речи.
-
Выбор модели
- Flash (Стандартное качество)
- Pro (Высокое качество)
-
Режим говорящего
- Один говорящий
- Несколько говорящих (2)
Генерация речи
Режим одного говорящего
- Выберите Один говорящий.
- Выберите голос в выпадающем списке Выбрать голос.
- Введите ваш текст.
- При желании добавьте инструкции по стилю.
- Нажмите Сгенерировать речь.
- Аудио будет автоматически воспроизведено после генерации.
Режим нескольких говорящих
-
Выберите Несколько говорящих (2).
-
Для каждого говорящего:
- Введите уникальное Имя говорящего.
- Выберите отличный Голос.
-
Отформатируйте текст так, чтобы каждая строка начиналась с имени говорящего, за которым следует двоеточие.
Пример:
Алиса: Привет, Боб, как дела?
Боб: Отлично, Алиса! Погода сегодня замечательная.
- Нажмите Сгенерировать речь. Голоса будут автоматически назначены на основе имён говорящих.
Общение с ИИ (живой режим)
Попробуйте естественный двусторонний голосовой разговор с Gemini.
- Настройте желаемые Голос и Инструкции по стилю в главном диалоговом окне. (Примечание: в настоящее время «Общение с ИИ» поддерживает только режим одного говорящего)
- Нажмите Общение с ИИ.
- В новом окне:
- Начать разговор: Запускает сессию. Говорите в микрофон.
- Остановить разговор: Завершает сессию.
- Привязка к Google Поиску: Установите этот флажок, чтобы позволить Gemini искать ответы в интернете (например, текущие новости, погоду).
- Примечание: Этот флажок скрыт, пока разговор активен. Остановите разговор, чтобы изменить его.
- Переключение микрофона: Выключить/включить микрофон.
- Громкость: Отрегулируйте громкость воспроизведения ИИ.
Расширенные настройки
-
Включите Расширенные настройки (Temperature), чтобы показать ползунок.
-
Диапазон температуры:
0.0→ Наиболее детерминированная и стабильная речь.1.0→ Баланс по умолчанию.2.0→ Наиболее креативная и разнообразная речь.
Обзор кнопок
- Сгенерировать речь — начать генерацию речи.
- Воспроизвести — повторно воспроизвести последнее сгенерированное аудио.
- Общение с ИИ — открыть интерфейс голосового разговора в реальном времени.
- Сохранить аудио — сохранить последнее аудио как файл
.wav. - Настройки API-ключа — открыть конфигурацию дополнения в настройках NVDA.
- Посмотреть голоса в AI Studio — открывает Google AI Studio в браузере.
- Закрыть — закрыть диалоговое окно (или нажмите
Escape).
Жесты ввода
Настраиваются через: Меню NVDA → Параметры → Жесты ввода → Native Speech Generation
Жест по умолчанию:
- NVDA+Control+Shift+G – открыть диалоговое окно Native Speech Generation.
Руководство по разработке и участию
Если вы хотите разрабатывать или изменять это дополнение, следуйте шагам ниже.
Настройка окружения
- Python 32-bit (рекомендуется 3.11.9) https://www.python.org/downloads/release/python-3119/
- SCons 4.9.1 или новее
pip install scons
-
GNU Gettext Tools (опционально, рекомендуется для локализации)
-
Обычно предустановлены на Linux/Cygwin.
-
Windows: https://gnuwin32.sourceforge.net/downlinks/gettext.php
-
Markdown 3.8+ (для конвертации документации)
pip install markdown
Дополнительные зависимости
Установите Gemini SDK и pyaudio непосредственно в путь к библиотеке дополнения:
python.exe -m pip install google-genai pyaudio --target "D:/myAdd-on/Native-Speech-Generation/addon/globalPlugins/NativeSpeechGeneration/lib"
Скорректируйте путь в соответствии с вашим локальным каталогом исходного кода дополнения.
Затем скопируйте следующее из вашей установки Python в:
addon/globalPlugins/NativeSpeechGeneration/lib
- Папку
zoneinfo - Файл
secrets.py
Участие в разработке
Предложения, баг-репорты и вклад в код очень приветствуются.
- Откройте Issue для сообщений об ошибках или запросов возможностей.
- Отправьте Pull Request для вклада в код.
Контакты
- Email:
muha.aku@gmail.com - GitHub: https://github.com/MuhammadGagah
История версий
История версий
| Версия файла | Тестируемая версия NVDA | Минимальная версия NVDA | Размер файла (КБ) | Ссылка на загрузку |
|---|---|---|---|---|
| 1.5.1 | 2025.3.2 | 2024.1 | 435 | NativeSpeechGeneration-V.1.5.1.nvda-addon |
| 1.5 | 2025.3.2 | 2024.1 | 432 | NativeSpeechGeneration-V.1.5.nvda-addon |
| 1.3 | 2025.3.2 | 2024.1 | 66 | NativeSpeechGeneration-V.1.3.nvda-addon |
| 1.2 | 2025.2 | 2023.1 | 54 | NativeSpeechGeneration-V.1.2.nvda-addon |
| 1.0 | 2025.1 | 2023.1 | 8184 | NativeSpeechGeneration-V.1.0.nvda-addon |