Перейти к основному содержимому Главная страница каталога дополнений для NVDA от русскоязычного сообщества NVDA.RU.

Официальный русскоязычный каталог дополнений NVDA

Крупнейший каталог дополнений для программы экранного доступа NVDA, доступный в Интернете

Каталог дополнений от «🇷🇺 Русскоязычного сообщества NVDA.RU.»

NativeSpeechGeneration (Нативная генерация речи)

Автор:

Краткое описание

Используйте мощь передового искусственного интеллекта Google Gemini для генерации высококачественной речи непосредственно в NVDA. Это дополнение предоставляет удобный диалог для преобразования текста в естественно звучащее аудио.
Ключевые возможности:
Высококачественные голоса: Выбирайте между Gemini Pro для премиального, реалистичного звучания и Gemini Flash для стандартного качества и быстрой генерации.
Режимы для одного и нескольких говорящих: Легко создавайте аудио для одного говорящего или создавайте динамические диалоги с двумя различными голосами. Просто форматируйте текст как ИмяГоворящего: для назначения голосов.
Расширенное управление голосом: Тонко настраивайте вывод, регулируя параметр температура для более креативных или стабильных результатов, а также задавая пользовательские инструкции по стилю.
Доступный интерфейс: Все элементы управления полностью доступны, включая свёртываемую панель для расширенных настроек, что делает интерфейс чистым и удобным для навигации.
Бесшовный рабочий процесс: Дополнение обеспечивает мгновенное воспроизведение аудио после генерации и позволяет сохранять полученный файл .wav для последующего использования.
Чтобы начать, получите Gemini API-ключ в Google AI Studio и введите его на панели настроек дополнения, которая находится в меню Сервис NVDA.
Сочетание клавиш можно изменить в жестах ввода, в категории «Нативная генерация речи».

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название Версия Совместимость с API NVDA Последняя протестированная версия NVDA Минимальная версия NVDA Дата загрузки в каталог Размер Лицензия
NativeSpeechGeneration 1.6.0 2025.1 2025.3.3 2024.1 11-04-2026 13:06:23 481 Кб. GPL v2
🔝 Назад к оглавлению

Информация о локализации на русский язык

🔝 Назад к оглавлению

Скачать

NativeSpeechGeneration-V.1.6.0.nvda-addon

⬇ Перейти к истории версий 🔝 Назад к оглавлению

Разделы

🔝 Назад к оглавлению

Справка

Подробнее

Native Speech Generation для NVDA

Автор: Muhammad Gagah muha.aku@gmail.com

Native Speech Generation — это дополнение NVDA, которое интегрирует Google Gemini AI для генерации высококачественной, естественно звучащей речи непосредственно в NVDA. Оно предоставляет чистый, полностью доступный интерфейс для преобразования текста в аудио, поддерживая как одноголосое повествование, так и динамические диалоги с несколькими спикерами.

Это дополнение разработано для удобных рабочих процессов, ориентированного на доступность взаимодействия и гибкого управления голосом, подходящего для повествования, диалогов и создания аудиоконтента.


Возможности

Высококачественная генерация речи

Режимы одного и нескольких спикеров

Расширенное управление голосом

Доступный и чистый интерфейс

Бесшовный рабочий процесс

Умная загрузка и кэширование голосов

Talk With AI (Живой разговор)


Требования


Установка

  1. Загрузите последний пакет дополнения со страницы Релизов: https://github.com/MuhammadGagah/native-speech-generation/releases
  2. Установите его как стандартное дополнение NVDA.
  3. Перезапустите NVDA, когда будет предложено.

Настройка API-ключа (Обязательно)

  1. Создайте API-ключ в Google AI Studio: https://aistudio.google.com/apikey
  2. Откройте NVDA и перейдите в: Меню NVDA → Сервис → Native Speech Generation
  3. Нажмите «API Key Settings».
  4. Откроются настройки NVDA непосредственно в категории Native Speech Generation.
  5. Вставьте ваш API-ключ Gemini в поле GEMINI API Key.
  6. Нажмите OK, чтобы сохранить.

Сохранённые ключи хранятся безопасно с использованием Windows DPAPI, поэтому зашифрованное значение не может быть расшифровано на другом компьютере с Windows или учётной записи пользователя.

Для продвинутых развёртываний вы также можете предоставить ключ через переменную окружения GEMINI_API_KEY. Дополнение будет использовать его автоматически, когда нет сохранённого ключа.


Как использовать

Откройте диалог, используя:

Основные элементы интерфейса


Генерация речи

Режим одного спикера

  1. Выберите Single-speaker.
  2. Выберите голос из раскрывающегося списка Select Voice.
  3. Введите ваш текст.
  4. При желании добавьте инструкции по стилю.
  5. Нажмите Generate Speech.
  6. Аудио автоматически воспроизведётся после генерации.

Режим нескольких спикеров

  1. Выберите Multi-speaker (2).

  2. Для каждого спикера:

    • Введите уникальное имя спикера.
    • Выберите отдельный голос.
  3. Отформатируйте текст так, чтобы каждая строка начиналась с имени спикера, за которым следует двоеточие.

Пример:

Алиса: Привет, Боб, как у тебя дела сегодня?
Боб: У меня всё отлично, Алиса! Погода замечательная.
  1. Нажмите Generate Speech. Голоса будут назначаться автоматически на основе имён спикеров.

Talk With AI (Живой режим)

Испытайте естественный двусторонний голосовой разговор с Gemini.

  1. Настройте желаемый голос и инструкции по стилю в главном диалоге. (Примечание: Talk With AI в настоящее время поддерживает только режим одного спикера)
  2. Нажмите Talk With AI.
  3. В новом окне:
    • Start Conversation: Начинает сеанс. Говорите в ваш микрофон.
    • Stop Conversation: Завершает сеанс.
    • Grounding with Google Search: Установите этот флажок, чтобы разрешить Gemini искать в интернете ответы (например, текущие новости, погоду).
      • Примечание: Этот флажок скрыт, пока активен разговор. Остановите разговор, чтобы изменить его.
    • Thinking level: Выберите No Thinking, Low, Medium или High.
    • Microphone Toggle: Включить/выключить микрофон.
    • Volume: Регулируйте громкость воспроизведения ИИ.

Расширенные настройки


Обзор кнопок


Жесты ввода

Настраивается через: Меню NVDA → Параметры → Жесты ввода → Native Speech Generation

Жест по умолчанию:


Руководство по разработке и внесению вклада

Если вы хотите разрабатывать или изменять это дополнение, выполните следующие шаги.

Настройка окружения

pip install scons

pip install markdown

Дополнительные зависимости

Установите зависимости Talk With AI (только аудио) непосредственно в путь библиотеки дополнения:

python.exe -m pip install google-genai pyaudio --target "D:/myAdd-on/Native-Speech-Generation/addon/globalPlugins/NativeSpeechGeneration/lib"

Скорректируйте путь в соответствии с вашей локальной директорией исходного кода дополнения.

Для текущей реализации Talk With AI (только аудио) вам не нужны opencv-python, pillow или mss.

Затем скопируйте следующее из вашей установки Python в:

addon/globalPlugins/NativeSpeechGeneration/lib


Внесение вклада

Приветствуются сообщения об ошибках, предложения и вклад.

Контакты

🔝 Назад к оглавлению

История версий

История версий
Версия файлаТестируемая версия NVDAМинимальная версия NVDAРазмер файла (КБ)Ссылка на загрузку
1.6.02025.3.32024.1481NativeSpeechGeneration-V.1.6.0.nvda-addon
1.5.52025.3.22024.1453NativeSpeechGeneration-V.1.5.5.nvda-addon
1.5.42025.3.22024.1440NativeSpeechGeneration-V.1.5.4.nvda-addon
1.5.32025.3.22024.1436NativeSpeechGeneration-V.1.5.3.nvda-addon
1.5.22025.3.22024.1436NativeSpeechGeneration-V.1.5.2.nvda-addon
1.5.12025.3.22024.1435NativeSpeechGeneration-V.1.5.1.nvda-addon
1.52025.3.22024.1432NativeSpeechGeneration-V.1.5.nvda-addon
1.32025.3.22024.166NativeSpeechGeneration-V.1.3.nvda-addon
1.22025.22023.154NativeSpeechGeneration-V.1.2.nvda-addon
1.02025.12023.18184NativeSpeechGeneration-V.1.0.nvda-addon
🔝 Назад к оглавлению