NativeSpeechGeneration (Нативная генерация речи)
Автор:- Исходный код дополнения: Посетить Web-сайт NativeSpeechGeneration
Краткое описание
Используйте мощь передового искусственного интеллекта Google Gemini для генерации высококачественной речи непосредственно в NVDA. Это дополнение предоставляет удобный диалог для преобразования текста в естественно звучащее аудио.
Ключевые возможности:
Высококачественные голоса: Выбирайте между Gemini Pro для премиального, реалистичного звучания и Gemini Flash для стандартного качества и быстрой генерации.
Режимы для одного и нескольких говорящих: Легко создавайте аудио для одного говорящего или создавайте динамические диалоги с двумя различными голосами. Просто форматируйте текст как ИмяГоворящего: для назначения голосов.
Расширенное управление голосом: Тонко настраивайте вывод, регулируя параметр температура для более креативных или стабильных результатов, а также задавая пользовательские инструкции по стилю.
Доступный интерфейс: Все элементы управления полностью доступны, включая свёртываемую панель для расширенных настроек, что делает интерфейс чистым и удобным для навигации.
Бесшовный рабочий процесс: Дополнение обеспечивает мгновенное воспроизведение аудио после генерации и позволяет сохранять полученный файл .wav для последующего использования.
Чтобы начать, получите Gemini API-ключ в Google AI Studio и введите его на панели настроек дополнения, которая находится в меню Сервис NVDA.
Сочетание клавиш можно изменить в жестах ввода, в категории «Нативная генерация речи».
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| NativeSpeechGeneration | 1.6.0 | 2025.1 | 2025.3.3 | 2024.1 | 11-04-2026 13:06:23 | 481 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
NativeSpeechGeneration-V.1.6.0.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
Native Speech Generation для NVDA
Автор: Muhammad Gagah muha.aku@gmail.com
Native Speech Generation — это дополнение NVDA, которое интегрирует Google Gemini AI для генерации высококачественной, естественно звучащей речи непосредственно в NVDA. Оно предоставляет чистый, полностью доступный интерфейс для преобразования текста в аудио, поддерживая как одноголосое повествование, так и динамические диалоги с несколькими спикерами.
Это дополнение разработано для удобных рабочих процессов, ориентированного на доступность взаимодействия и гибкого управления голосом, подходящего для повествования, диалогов и создания аудиоконтента.
Возможности
Высококачественная генерация речи
-
Выбор между:
- Gemini Flash — стандартное качество, быстрая генерация, низкая задержка.
- Gemini Pro — премиум-класс, более реалистичные голоса (платная модель).
Режимы одного и нескольких спикеров
- Одноголосое повествование для стандартного преобразования текста в речь.
- Режим нескольких спикеров (2 спикера) для диалогов с разными голосами.
Расширенное управление голосом
-
Именование спикеров Назначайте пользовательские имена (например, Иван, Мария) в режиме нескольких спикеров. ИИ автоматически сопоставляет голоса на основе имён спикеров в сценарии.
-
Инструкции по стилю Предоставляйте подсказки, такие как «Говори бодрым тоном» или «Рассказывай спокойно», чтобы управлять подачей.
-
Управление температурой Регулируйте вариативность и креативность вывода:
- Меньшие значения → более стабильная и предсказуемая речь.
- Большие значения → более выразительная и разнообразная речь.
Доступный и чистый интерфейс
- Полностью доступно для скринридеров.
- Расширенные параметры размещены в сворачиваемой панели, чтобы основное диалоговое окно оставалось простым и сфокусированным.
Бесшовный рабочий процесс
- Аудио воспроизводится автоматически после генерации.
- Сгенерированное аудио можно воспроизвести повторно или сохранить как высококачественный
.wavфайл. - Разработано для минимальных помех при повторной генерации и воспроизведении.
Умная загрузка и кэширование голосов
- Доступные голоса динамически извлекаются из API Gemini.
- Данные голосов кэшируются на 24 часа, чтобы уменьшить количество вызовов API и ускорить запуск.
Talk With AI (Живой разговор)
- Голосовой чат в реальном времени: Ведите естественный разговор с Gemini с низкой задержкой.
- Привязка к Google Search: Разрешите ИИ получать актуальную информацию из интернета во время вашего чата.
- Прерываемость: Вы можете прервать ИИ в любой момент, говоря или нажав «Stop Conversation».
- Настраиваемость: Использует выбранный вами голос и инструкции по стилю.
- Управление уровнем мышления: Выберите
No Thinking,Low,MediumилиHighв зависимости от желаемой глубины рассуждения. - Непрерывность при переподключении: Недавний контекст разговора автоматически восстанавливается после переподключения без отдельного переключателя памяти.
- Более стабильная потоковая передача: Улучшенное поведение при переподключении (backoff + retry) и адаптивная буферизация аудио для лучшей устойчивости в нестабильных сетях.
Требования
- NVDA (рекомендуется последняя версия).
- Активное интернет-соединение.
- Действительный API-ключ Google Gemini.
Установка
- Загрузите последний пакет дополнения со страницы Релизов: https://github.com/MuhammadGagah/native-speech-generation/releases
- Установите его как стандартное дополнение NVDA.
- Перезапустите NVDA, когда будет предложено.
Настройка API-ключа (Обязательно)
- Создайте API-ключ в Google AI Studio: https://aistudio.google.com/apikey
- Откройте NVDA и перейдите в: Меню NVDA → Сервис → Native Speech Generation
- Нажмите «API Key Settings».
- Откроются настройки NVDA непосредственно в категории Native Speech Generation.
- Вставьте ваш API-ключ Gemini в поле GEMINI API Key.
- Нажмите OK, чтобы сохранить.
Сохранённые ключи хранятся безопасно с использованием Windows DPAPI, поэтому зашифрованное значение не может быть расшифровано на другом компьютере с Windows или учётной записи пользователя.
Для продвинутых развёртываний вы также можете предоставить ключ через переменную окружения
GEMINI_API_KEY. Дополнение будет использовать его автоматически,
когда нет сохранённого ключа.
Как использовать
Откройте диалог, используя:
- NVDA+Control+Shift+G, или
- Меню NVDA → Сервис → Native Speech Generation
Основные элементы интерфейса
-
Текст для преобразования Введите или вставьте текст, который хотите преобразовать в речь.
-
Инструкции по стилю (опционально) Предоставьте руководство по тону, эмоциям или подаче.
-
Выбор модели
- Flash (Стандартное качество)
- Pro (Высокое качество)
-
Режим спикера
- Один спикер
- Несколько спикеров (2)
Генерация речи
Режим одного спикера
- Выберите Single-speaker.
- Выберите голос из раскрывающегося списка Select Voice.
- Введите ваш текст.
- При желании добавьте инструкции по стилю.
- Нажмите Generate Speech.
- Аудио автоматически воспроизведётся после генерации.
Режим нескольких спикеров
-
Выберите Multi-speaker (2).
-
Для каждого спикера:
- Введите уникальное имя спикера.
- Выберите отдельный голос.
-
Отформатируйте текст так, чтобы каждая строка начиналась с имени спикера, за которым следует двоеточие.
Пример:
Алиса: Привет, Боб, как у тебя дела сегодня?
Боб: У меня всё отлично, Алиса! Погода замечательная.
- Нажмите Generate Speech. Голоса будут назначаться автоматически на основе имён спикеров.
Talk With AI (Живой режим)
Испытайте естественный двусторонний голосовой разговор с Gemini.
- Настройте желаемый голос и инструкции по стилю в главном диалоге. (Примечание: Talk With AI в настоящее время поддерживает только режим одного спикера)
- Нажмите Talk With AI.
- В новом окне:
- Start Conversation: Начинает сеанс. Говорите в ваш микрофон.
- Stop Conversation: Завершает сеанс.
- Grounding with Google Search: Установите этот флажок, чтобы разрешить Gemini искать в интернете ответы (например, текущие новости, погоду).
- Примечание: Этот флажок скрыт, пока активен разговор. Остановите разговор, чтобы изменить его.
- Thinking level: Выберите
No Thinking,Low,MediumилиHigh. - Microphone Toggle: Включить/выключить микрофон.
- Volume: Регулируйте громкость воспроизведения ИИ.
Расширенные настройки
-
Включите Advanced Settings (Temperature), чтобы отобразить ползунок.
-
Диапазон температуры:
0.0→ Наиболее детерминированно и стабильно.1.0→ Баланс по умолчанию.2.0→ Наиболее креативно и разнообразно.
Обзор кнопок
- Generate Speech — Начать генерацию речи.
- Play — Воспроизвести последнее сгенерированное аудио.
- Talk With AI — Открыть интерфейс голосового разговора в реальном времени.
- Save Audio — Сохранить последнее аудио как
.wavфайл. - API Key Settings — Открыть конфигурацию дополнения в настройках NVDA.
- View voices in AI Studio — Открыть Google AI Studio в браузере.
- Close — Закрыть диалог (или нажмите
Escape).
Жесты ввода
Настраивается через: Меню NVDA → Параметры → Жесты ввода → Native Speech Generation
Жест по умолчанию:
- NVDA+Control+Shift+G – Открыть диалог Native Speech Generation.
Руководство по разработке и внесению вклада
Если вы хотите разрабатывать или изменять это дополнение, выполните следующие шаги.
Настройка окружения
- Python 32-bit (рекомендуется 3.11.9) https://www.python.org/downloads/release/python-3119/
- SCons 4.9.1 или новее
pip install scons
-
GNU Gettext Tools (опционально, рекомендуется для локализации)
-
Обычно предустановлен на Linux/Cygwin.
-
Windows: https://gnuwin32.sourceforge.net/downlinks/gettext.php
-
Markdown 3.8+ (для преобразования документации)
pip install markdown
Дополнительные зависимости
Установите зависимости Talk With AI (только аудио) непосредственно в путь библиотеки дополнения:
python.exe -m pip install google-genai pyaudio --target "D:/myAdd-on/Native-Speech-Generation/addon/globalPlugins/NativeSpeechGeneration/lib"
Скорректируйте путь в соответствии с вашей локальной директорией исходного кода дополнения.
Для текущей реализации Talk With AI (только аудио) вам не нужны opencv-python, pillow или mss.
Затем скопируйте следующее из вашей установки Python в:
addon/globalPlugins/NativeSpeechGeneration/lib
- папку
zoneinfo - файл
secrets.py
Внесение вклада
Приветствуются сообщения об ошибках, предложения и вклад.
- Откройте Issue для ошибок или запросов новых функций.
- Отправьте Pull Request для вклада в код.
Контакты
- Электронная почта:
muha.aku@gmail.com - GitHub: https://github.com/MuhammadGagah
История версий
История версий
| Версия файла | Тестируемая версия NVDA | Минимальная версия NVDA | Размер файла (КБ) | Ссылка на загрузку |
|---|---|---|---|---|
| 1.6.0 | 2025.3.3 | 2024.1 | 481 | NativeSpeechGeneration-V.1.6.0.nvda-addon |
| 1.5.5 | 2025.3.2 | 2024.1 | 453 | NativeSpeechGeneration-V.1.5.5.nvda-addon |
| 1.5.4 | 2025.3.2 | 2024.1 | 440 | NativeSpeechGeneration-V.1.5.4.nvda-addon |
| 1.5.3 | 2025.3.2 | 2024.1 | 436 | NativeSpeechGeneration-V.1.5.3.nvda-addon |
| 1.5.2 | 2025.3.2 | 2024.1 | 436 | NativeSpeechGeneration-V.1.5.2.nvda-addon |
| 1.5.1 | 2025.3.2 | 2024.1 | 435 | NativeSpeechGeneration-V.1.5.1.nvda-addon |
| 1.5 | 2025.3.2 | 2024.1 | 432 | NativeSpeechGeneration-V.1.5.nvda-addon |
| 1.3 | 2025.3.2 | 2024.1 | 66 | NativeSpeechGeneration-V.1.3.nvda-addon |
| 1.2 | 2025.2 | 2023.1 | 54 | NativeSpeechGeneration-V.1.2.nvda-addon |
| 1.0 | 2025.1 | 2023.1 | 8184 | NativeSpeechGeneration-V.1.0.nvda-addon |