VisionAssistant (Визуальный помощник Pro)
Автор:- Исходный код дополнения: Посетить Web-сайт VisionAssistant
Краткое описание
Дополнение VisionAssistant - это продвинутый ИИ-помощник для NVDA, использующий модели Gemini.
Командный слой: Нажмите NVDA+Shift+V, затем:
Умный переводчик (T) / Перевод из буфера (Shift+T).
Обработка текста (R).
Описание объекта (V) / Весь экран (O).
Анализ онлайн-видео (Shift+V).
Вопрос-ответ по документам (D).
Распознавание текста из файла (F).
Решение CAPTCHA (C).
Расшифровка аудио (A).
Умный голосовой ввод (S).
Отчёт о состоянии (L).
Проверка обновлений (U).
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| VisionAssistant | 3.6.0 | 2025.1 | 2025.3.1 | 2019.3 | 31-12-2025 20:28:29 | 356 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
VisionAssistant-V.3.6.0.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
Vision Assistant Pro (Визуальный помощник Pro)
Vision Assistant Pro — это продвинутый многомодальный ИИ-помощник для NVDA. Он использует модели Google Gemini для предоставления интеллектуального чтения с экрана, перевода, голосового ввода и анализа документов.
Это дополнение выпущено для сообщества в честь Международного дня людей с ограниченными возможностями.
1. Установка и настройка
Перейдите в Меню NVDA > Параметры > Настройки > Vision Assistant Pro.
- Ключ API: Обязателен. Поле по умолчанию скрыто для безопасности (используйте «Показать ключ API» для просмотра). Получите бесплатный ключ в Google AI Studio.
- Модель: Выберите между моделями Flash (самая быстрая/бесплатная) или Pro (высокий интеллект) в зависимости от ваших потребностей.
- URL прокси: Необязательно. Используйте, если Google заблокирован в вашем регионе. Вам нужен адрес сервера (URL), который принимает ваши запросы и перенаправляет их к API Gemini.
Примечание: Это не для стандартных VPN/SOCKS прокси (например,
127.0.0.1:1080). Это должен быть веб-адрес (например,https://my-custom-proxy.com), который выступает в качестве моста к Google. - Языки: Установите исходный, целевой и язык ответов ИИ.
- Автопереключение языка: Автоматически меняет языки местами, если исходный текст соответствует целевому языку.
- Прямой вывод: Пропускает окно чата и сразу озвучивает ответ речью.
- Интеграция с буфером обмена: Автоматически копирует ответ ИИ в буфер обмена.
2. Командный слой и сочетания клавиш
Чтобы избежать конфликтов клавиш, это дополнение использует Командный слой.
- Нажмите NVDA + Shift + V (главная клавиша), чтобы активировать слой (вы услышите звуковой сигнал).
- Отпустите клавиши, затем нажмите одну из следующих одиночных клавиш:
| Клавиша | Функция | Описание |
|---|---|---|
| T | Умный переводчик | Переводит текст под курсором навигатора или выделение. |
| Shift + T | Перевод из буфера | Переводит содержимое, находящееся в буфере обмена. |
| R | Обработка текста | Обобщить, исправить грамматику, объяснить или запустить Пользовательские подсказки. |
| V | Описание объекта | Описывает текущий объект навигатора. |
| O | Описание всего экрана | Анализирует весь макет и содержимое экрана. |
| Shift + V | Анализ онлайн-видео | Анализ видео YouTube, Instagram или Twitter (X) по URL. |
| D | Анализ документа | Чат с файлами PDF/TXT/MD/PY. |
| F | Распознавание текста из файла | Прямое распознавание текста (OCR) из файлов изображений/PDF/TIFF (поддерживаются многостраничные TIFF). |
| A | Расшифровка аудио | Расшифровка файлов MP3/WAV/OGG. |
| C | Решение CAPTCHA | Захватывает и решает CAPTCHA автоматически. |
| S | Умный голосовой ввод | Преобразует речь в текст. Нажмите для начала записи, ещё раз для остановки/ввода. |
| L | Отчёт о состоянии | Озвучивает текущий статус (например, «Загрузка...», «Бездействие»). |
| U | Проверка обновлений | Проверяет наличие последней версии на GitHub. |
| H | Справка по командам | Отображает полный список всех доступных сочетаний клавиш и их описаний в командном слое. |
3. Пользовательские подсказки и переменные
Создавайте команды в настройках: Имя:Текст подсказки (разделяйте | или новой строкой).
Доступные переменные
| Переменная | Описание | Тип ввода |
|---|---|---|
[selection] |
Текущий выделенный текст | Текст |
[clipboard] |
Содержимое буфера обмена | Текст |
[screen_obj] |
Скриншот объекта навигатора | Изображение |
[screen_full] |
Скриншот всего экрана | Изображение |
[file_ocr] |
Выбрать изображение/PDF/TIFF (по умолчанию «Извлечь текст») | Изображение, PDF, TIFF |
[file_read] |
Выбрать текстовый документ | TXT, Код, PDF |
[file_audio] |
Выбрать аудиофайл | MP3, WAV, OGG |
Примеры пользовательских подсказок
- Быстрое распознавание текста:
Мой OCR:[file_ocr] - Перевод изображения:
Перевести изображение:Извлеки текст с этого изображения и переведи на персидский. [file_ocr] - Анализ аудио:
Обобщить аудио:Прослушайте эту запись и обобщите основные моменты. [file_audio] - Отладка кода:
Отладка:Найдите ошибки в этом коде и объясните их: [selection]
Примечание: Для работы всех функций ИИ требуется активное подключение к интернету. Многостраничные TIFF обрабатываются автоматически.
Изменения в версии 3.6.0
- Система справки: Добавлена команда справки (
H) в командном слое для предоставления легко доступного списка всех сочетаний клавиш и их функций. - Анализ онлайн-видео: Расширена поддержка, включая видео Twitter (X). Также улучшено определение URL и повышена стабильность для более надёжной работы.
- Поддержка проекта: Добавлено необязательное диалоговое окно пожертвований для пользователей, которые желают поддержать будущие обновления и постоянное развитие проекта.
Изменения в версии 3.5.0
- Командный слой: Введена система Командного слоя (по умолчанию:
NVDA+Shift+V) для группировки сочетаний клавиш под одной главной клавишей. Например, вместо нажатияNVDA+Control+Shift+Tдля перевода теперь нужно нажатьNVDA+Shift+V, а затемT. - Анализ онлайн-видео: Добавлена новая функция для анализа видео YouTube и Instagram непосредственно по предоставленному URL.
Изменения в версии 3.1.0
- Режим прямого вывода: Добавлена возможность пропускать диалоговое окно чата и прослушивать ответы ИИ напрямую с помощью речи для более быстрого и плавного взаимодействия.
- Интеграция с буфером обмена: Добавлена новая настройка для автоматического копирования ответов ИИ в буфер обмена.
Изменения в версии 3.0
- Новые языки: Добавлены переводы на персидский и вьетнамский.
- Расширенные модели ИИ: Реорганизован список выбора моделей с чёткими префиксами (
[Бесплатная],[Про],[Авто]), чтобы помочь пользователям различать бесплатные и ограниченные (платные) модели. Добавлена поддержка Gemini 3.0 Pro и Gemini 2.0 Flash Lite. - Стабильность голосового ввода: Значительно улучшена стабильность Умного голосового ввода. Добавлена проверка безопасности для игнорирования аудиоклипов короче 1 секунды, предотвращающая галлюцинации ИИ и пустые ошибки.
- Обработка файлов: Исправлена проблема, при которой загрузка файлов с неанглийскими именами завершалась неудачей.
- Оптимизация подсказок: Улучшена логика перевода и структурирования результатов анализа изображений.
Изменения в версии 2.9
- Добавлены французский и турецкий переводы.
- Просмотр с форматированием: Добавлена кнопка «Просмотр с форматированием» в диалогах чата для просмотра разговора с правильным форматированием (заголовки, жирный шрифт, код) в стандартном просматриваемом окне.
- Настройка Markdown: Добавлена новая опция «Очищать Markdown в чате» в настройках. Снятие этой галочки позволяет пользователям видеть необработанный синтаксис Markdown (например,
**,#) в окне чата. - Управление диалогами: Исправлена проблема, при которой окна «Улучшить текст» или чата открывались несколько раз или не могли получить фокус корректно.
- Улучшения UX: Стандартизированы заголовки файловых диалогов на «Открыть» и удалены избыточные голосовые объявления (например, «Открытие меню...») для более плавной работы.
Изменения в версии 2.8
- Добавлен итальянский перевод.
- Отчёт о состоянии: Добавлена новая команда (NVDA+Control+Shift+I) для озвучивания текущего статуса дополнения (например, «Загрузка...», «Анализ...»).
- Экспорт в HTML: Кнопка «Сохранить содержимое» в диалогах результатов теперь сохраняет вывод в виде форматированного HTML-файла, сохраняя стили, такие как заголовки и жирный текст.
- Интерфейс настроек: Улучшено расположение панели настроек с доступной группировкой.
- Новые модели: Добавлена поддержка gemini-flash-latest и gemini-flash-lite-latest.
- Языки: Добавлен непальский в поддерживаемые языки.
- Логика меню улучшения текста: Исправлена критическая ошибка, при которой команды «Улучшить текст» не работали, если язык интерфейса NVDA не был английским.
- Голосовой ввод: Улучшено обнаружение тишины для предотвращения некорректного вывода текста, когда речь не вводится.
- Настройки обновлений: «Проверять обновления при запуске» теперь отключена по умолчанию в соответствии с политикой Магазина дополнений.
- Очистка кода.
Изменения в версии 2.7
- Мигрирована структура проекта на официальный шаблон дополнений NV Access для лучшего соответствия стандартам.
- Реализована логика автоматического повторного запроса при ошибках HTTP 429 (ограничение скорости) для обеспечения надёжности во время высокой нагрузки.
- Оптимизированы подсказки для перевода для повышения точности и улучшения обработки логики «Автопереключения языка».
- Обновлён русский перевод.
Изменения в версии 2.6
- Добавлена поддержка русского перевода (благодаря nvda-ru).
- Обновлены сообщения об ошибках для предоставления более описательной обратной связи о подключении.
- Изменён целевой язык по умолчанию на английский.
Изменения в версии 2.5
- Добавлена нативная команда распознавания текста из файла (NVDA+Control+Shift+F).
- Добавлена кнопка «Сохранить чат» в диалоги результатов.
- Реализована полная поддержка локализации (i18n).
- Переведены звуковые сигналы на использование нативного модуля тонов NVDA.
- Переключение на Gemini File API для лучшей обработки PDF и аудиофайлов.
- Исправлен сбой при переводе текста, содержащего фигурные скобки.
Изменения в версии 2.1.1
- Исправлена проблема, при которой переменная
[file_ocr]не работала корректно внутри пользовательских подсказок.
Изменения в версии 2.1
- Стандартизированы все сочетания клавиш для использования NVDA+Control+Shift, чтобы исключить конфликты с ноутбучной раскладкой NVDA и системными горячими клавишами.
Изменения в версии 2.0
- Реализована встроенная система автообновления.
- Добавлен кеш умного перевода для мгновенного получения ранее переведённого текста.
- Добавлена память разговора для контекстного уточнения результатов в диалогах чата.
- Добавлена выделенная команда перевода из буфера обмена (NVDA+Control+Shift+Y).
- Оптимизированы подсказки ИИ для строгого соблюдения вывода на целевом языке.
- Исправлен сбой, вызванный специальными символами во входном тексте.
Изменения в версии 1.5
- Добавлена поддержка более 20 новых языков.
- Реализован интерактивный диалог уточнения для последующих вопросов.
- Добавлена нативная функция Умного голосового ввода.
- Добавлена категория «Vision Assistant» в диалог «Жесты ввода» NVDA.
- Исправлены сбои COMError в определённых приложениях, таких как Firefox и Word.
- Добавлен механизм автоматического повторного запроса при ошибках сервера.
Изменения в версии 1.0
- Первоначальный выпуск.