Vision Assistant Pro (Визуальный помощник)
Автор:- Исходный код дополнения: Посетить Web-сайт VisionAssistant
Краткое описание
Vision Assistant Pro — это продвинутый многофункциональный ИИ-ассистент для NVDA. Он использует ведущие мировые ИИ-движки для обеспечения интеллектуального чтения с экрана, перевода, голосового ввода и анализа документов.
Командный слой: нажмите NVDA+Shift+V, затем:
Умный перевод (T) / из буфера обмена (Shift+T).
Обработка текста (R).
Описание объекта (V) / всего экрана (O).
Анализ онлайн-видео (Shift+V).
Чтение документов (D).
OCR файлов (F).
Решение CAPTCHA (C).
Расшифровка аудио (A).
Умная диктовка (S).
Состояние (L).
Проверка обновлений (U).
Повтор последнего результата (Пробел).
Справка по командам (H).
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| VisionAssistant | 5.5.2 | 2026.1 | 2026.1 | 2025.1 | 09-05-2026 17:00:40 | 37051 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
VisionAssistant-V.5.5.2.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
Vision Assistant Pro Документация
Vision Assistant Pro — это продвинутый мультимодальный ИИ-ассистент для NVDA. Он использует лучшие в мире ИИ-движки для интеллектуального чтения экрана, перевода, голосового диктования и анализа документов.
Это дополнение выпущено для сообщества в честь Международного дня инвалидов.
1. Установка и настройка
Перейдите в Меню NVDA > Параметры > Настройки > Vision Assistant Pro.
1.1 Настройки подключения
- Провайдер: Выберите предпочитаемый ИИ-сервис. Поддерживаются Google Gemini, OpenAI, Mistral, Groq и Custom (серверы, совместимые с OpenAI, например Ollama/LM Studio).
- Важное примечание: Мы настоятельно рекомендуем использовать Google Gemini для лучшей производительности и точности (особенно для анализа изображений и файлов).
- API-ключ: Обязательное поле. Вы можете ввести несколько ключей (разделяя их запятыми или новыми строками) для автоматической ротации.
- Получить модели: После ввода API-ключа нажмите эту кнопку, чтобы загрузить последний список доступных моделей от провайдера.
- ИИ-модель: Выберите основную модель для общего чата и анализа.
1.2 Продвинутая маршрутизация моделей
Доступно для всех провайдеров, включая Gemini, OpenAI, Groq, Mistral и Custom.
⚠️ Предупреждение: Эти настройки предназначены только для продвинутых пользователей. Если вы не уверены, что делает конкретная модель, пожалуйста, оставьте этот пункт снятым. Выбор несовместимой модели для задачи (например, текстовой модели для Vision) вызовет ошибки и остановит работу дополнения.
Отметьте "Продвинутая маршрутизация моделей (для конкретных задач)", чтобы получить детальный контроль. Это позволит вам выбирать конкретные модели из раскрывающегося списка для разных задач:
- OCR / Модель Vision: Выберите специализированную модель для анализа изображений.
- Преобразование речи в текст (STT): Выберите конкретную модель для диктовки.
- Преобразование текста в речь (TTS): Выберите модель для генерации аудио.
- Модель ИИ-Оператора: Выберите конкретную модель для задач автономного управления компьютером. Примечание: Неподдерживаемые функции (например, TTS для Groq) будут автоматически скрыты.
1.3 Продвинутая конфигурация конечных точек (Пользовательский провайдер)
Доступно только при выборе "Custom".
⚠️ Предупреждение: Этот раздел позволяет вручную настраивать API и предназначен для опытных пользователей, запускающих локальные серверы или прокси. Неправильные URL-адреса или имена моделей нарушат подключение. Если вы точно не знаете, что делают эти конечные точки, оставьте этот пункт снятым.
Отметьте "Продвинутая конфигурация конечных точек" для ручного ввода данных сервера. В отличие от стандартных провайдеров, здесь вам нужно вводить конкретные URL-адреса и имена моделей:
- URL списка моделей: Конечная точка для получения доступных моделей.
- URL-адреса конечных точек OCR/STT/TTS: Полные URL для конкретных сервисов (например,
http://localhost:11434/v1/audio/speech). - Пользовательские модели: Вручную введите имя модели (например,
llama3:8b) для каждой задачи.
1.4 Общие настройки
- Движок OCR: Выберите между Chrome (Быстрый) для быстрых результатов или AI (Продвинутый) для лучшего сохранения форматирования.
- Примечание: Если вы выбрали "AI (Продвинутый)", но ваш провайдер установлен на OpenAI/Groq, дополнение интеллектуально направит изображение в визионную модель вашего активного провайдера.
- TTS Голос: Выберите предпочитаемый стиль голоса. Этот список динамически обновляется на основе вашего активного провайдера.
- Креативность (Температура): Контролирует случайность ИИ. Более низкие значения лучше подходят для точного перевода/OCR.
- Прокси-URL: Настройте это, если ИИ-сервисы ограничены в вашем регионе (поддерживает локальные прокси типа
127.0.0.1или мостовые URL).
2. Уровень команд и горячие клавиши
Чтобы избежать конфликтов клавиш, это дополнение использует Уровень команд.
- Нажмите NVDA + Shift + V (Основная клавиша) для активации уровня (вы услышите звуковой сигнал).
- Отпустите клавиши, затем нажмите одну из следующих клавиш:
| Клавиша | Функция | Описание |
|---|---|---|
| Shift + A | ИИ-Оператор | Автономное управление: Скажите ИИ выполнить задачу на вашем экране. |
| E | Исследователь интерфейса | Интерактивный клик: Определяет и нажимает элементы интерфейса в любом приложении. |
| T | Умный переводчик | Переводит текст под курсором навигатора или выделенный текст. |
| Shift + T | Переводчик буфера обмена | Переводит содержимое буфера обмена. |
| R | Обработчик текста | Суммизирует, исправляет грамматику, объясняет или выполняет Пользовательские подсказки. |
| V | Объектное зрение | Описывает текущий объект навигатора. |
| O | Анализ всего экрана | Анализирует макет и содержимое всего экрана. |
| Shift + V | Анализ онлайн-видео | Анализирует видео с YouTube, Instagram, TikTok или Twitter (X). |
| D | Чтение документов | Продвинутое чтение PDF и изображений с выбором диапазона страниц. |
| F | Умное действие с файлом | Контекстно-зависимое распознавание выбранных файлов изображений, PDF или TIFF. |
| A | Расшифровка аудио | Расшифровывает файлы MP3, WAV или OGG в текст. |
| C | Решатель CAPTCHA | Захватывает и решает CAPTCHA (поддерживает порталы госуслуг). |
| S | Умный диктофон | Преобразует речь в текст. Нажмите, чтобы начать запись, снова нажмите, чтобы остановить и ввести текст. |
| L | Отчет о состоянии | Сообщает текущий прогресс (например, "Сканирование...", "Ожидание"). |
| U | Проверка обновлений | Вручную проверяет GitHub на наличие последней версии дополнения. |
| Пробел | Повтор последнего результата | Показывает последний ответ ИИ в диалоговом окне чата для просмотра или продолжения. |
| H | Справка по командам | Отображает список всех доступных горячих клавиш. |
2.1 Горячие клавиши в окне чтения документов
- Ctrl + PageDown: Перейти на следующую страницу.
- Ctrl + PageUp: Перейти на предыдущую страницу.
- Alt + A: Открыть диалог чата, чтобы задать вопросы о документе.
- Alt + R: Принудительное Повторное сканирование с ИИ с использованием вашего активного провайдера.
- Alt + G: Создать и сохранить высококачественный аудиофайл (WAV/MP3). Скрыто, если провайдер не поддерживает TTS.
- Alt + S / Ctrl + S: Сохранить извлеченный текст в файл TXT или HTML.
3. Пользовательские подсказки и переменные
Вы можете управлять подсказками в Настройках > Подсказки > Управление подсказками....
Поддерживаемые переменные
[selection]: Текущий выделенный текст.[clipboard]: Содержимое буфера обмена.[screen_obj]: Скриншот объекта навигатора.[screen_full]: Полный скриншот экрана.[file_ocr]: Выбрать файл изображения или PDF для извлечения текста.[file_read]: Выбрать документ для чтения (TXT, код, PDF).[file_audio]: Выбрать аудиофайл для анализа (MP3, WAV, OGG).
Примечание: Для всех функций ИИ требуется активное интернет-соединение. Многостраничные документы обрабатываются автоматически.
4. Поддержка и сообщество
Будьте в курсе последних новостей, функций и релизов:
- Telegram-канал: t.me/VisionAssistantPro
- GitHub Issues: Для сообщений об ошибках и запросов новых функций.
Изменения в версии 5.5 (Обновление с автоматизацией)
- ИИ-Оператор (Автономное управление - Shift+A): Это главная жемчужина v5.5. Vision Assistant Pro перешел от пассивного ассистента к вашему личному ИИ-Оператору. Он не просто описывает экран — он берет управление на себя.
- Как это работает: Теперь вы можете отдавать голосовые инструкции для управления компьютером. Например, в полностью недоступном приложении, где ваш скринридер молчит, вы можете нажать Shift+A и ввести: "Нажми на кнопку 'Настройки'" или "Найди поле поиска, введи 'Последние новости' и нажми Enter". ИИ визуально идентифицирует элементы, перемещает мышь и выполняет задачу за вас.
- Примечание по производительности: Эта функция оптимизирована для Gemini 3.0 Flash (Preview), обеспечивая невероятно быстрые и интеллектуальные ответы, способные справиться с самыми сложными макетами интерфейса.
- ⚠️ Предупреждение об использовании API: Поскольку ИИ-Оператору нужно "видеть", что именно происходит для точности, он отправляет скриншот высокого разрешения на каждом шаге. Имейте в виду, что частое использование будет расходовать вашу квоту API гораздо быстрее, чем стандартные текстовые задачи.
- Визуальный исследователь интерфейса (E): Устали ориентироваться по "ненужным кнопкам"? Нажмите E для активации исследователя интерфейса. ИИ просканирует все окно и создаст список каждого кликабельного элемента, который он видит, включая значки, графику и меню. Просто выберите элемент из списка, и ИИ-Оператор нажмет его за вас. Это как иметь "доступный слой" поверх любого приложения.
- Контекстно-зависимое умное действие с файлом (F): Клавиша "F" была полностью переработана. Она больше не предполагает, что вы хотите только OCR. Когда вы выбираете одно изображение, она теперь интеллектуально спрашивает о вашем намерении: вы можете выбрать Детальное визуальное описание для понимания сцены или Структурированное извлечение текста (OCR) для чтения. Меню динамически адаптируется в зависимости от типа файла и вашего активного ИИ-движка.
- Оптимизация ядра: Мы провели глубокую очистку внутренней логики дополнения, удалив неиспользуемые устаревшие функции и избыточный код. Это приводит к более легкому, быстрому и надежному опыту для всех пользователей.
Изменения в версии 5.0
- Многопровайдерная архитектура: Добавлена полная поддержка OpenAI, Groq и Mistral наряду с Google Gemini. Пользователи теперь могут выбирать предпочитаемую ИИ-платформу.
- Продвинутая маршрутизация моделей: Пользователи стандартных провайдеров (Gemini, OpenAI и др.) теперь могут выбирать конкретные модели из раскрывающегося списка для разных задач (OCR, STT, TTS).
- Продвинутая конфигурация конечных точек: Пользователи пользовательского провайдера могут вручную вводить конкретные URL и имена моделей для детального управления локальными или сторонними серверами.
- Умная видимость функций: Меню настроек и интерфейс чтения документов теперь автоматически скрывают неподдерживаемые функции (например, TTS) в зависимости от выбранного провайдера.
- Динамическое получение моделей: Дополнение теперь получает список доступных моделей напрямую из API провайдера, обеспечивая совместимость с новыми моделями сразу после их выпуска.
- Гибридный OCR и перевод: Оптимизирована логика использования Google Translate для скорости при использовании Chrome OCR и ИИ-перевода при использовании движков Gemini/Groq/OpenAI.
- Универсальное "Повторное сканирование с ИИ": Функция повторного сканирования в окне чтения документов больше не ограничена Gemini. Теперь она использует любого активного ИИ-провайдера для повторной обработки страниц.
Изменения в версии 4.6
- Интерактивный повтор результата: Добавлена клавиша Пробел на уровень команд, позволяющая пользователям мгновенно открыть последний ответ ИИ в окне чата для уточняющих вопросов, даже когда активен режим "Прямого вывода".
- Телеграм-хаб сообщества: Добавлена ссылка на "Официальный Telegram-канал" в меню "Инструменты" NVDA, обеспечивающая быстрый способ быть в курсе последних новостей, функций и релизов.
- Повышенная стабильность ответов: Оптимизирована основная логика для функций перевода, OCR и Vision для обеспечения более надежной производительности и более плавного опыта при использовании прямого речевого вывода.
- Улучшенное руководство по интерфейсу: Обновлены описания настроек и документация, чтобы лучше объяснить новую систему повтора и то, как она работает вместе с настройками прямого вывода.
Изменения в версии 4.5
- Продвинутый менеджер подсказок: Представлен специальный диалог управления в настройках для настройки системных подсказок по умолчанию и управления пользовательскими подсказками с полной поддержкой добавления, редактирования, изменения порядка и предварительного просмотра.
- Всесторонняя поддержка прокси: Решены проблемы с сетевым подключением благодаря строгому применению настроенных пользователем прокси ко всем API-запросам, включая перевод, OCR и генерацию речи.
- Автоматическая миграция данных: Встроена интеллектуальная система миграции для автоматического обновления устаревших конфигураций подсказок до надежного формата JSON v2 при первом запуске без потери данных.
- Обновленная совместимость (2025.1): Установлена минимальная требуемая версия NVDA 2025.1 из-за зависимостей библиотек в продвинутых функциях, таких как чтение документов, для обеспечения стабильной работы.
- Оптимизированный интерфейс настроек: Упрощен интерфейс настроек путем перемещения управления подсказками в отдельный диалог, обеспечивая более чистый и доступный пользовательский опыт.
- Руководство по переменным подсказок: Добавлено встроенное руководство в диалогах подсказок, чтобы помочь пользователям легко идентифицировать и использовать динамические переменные, такие как
[selection],[clipboard]и[screen_obj].
Изменения в версии 4.0.3
- Повышенная устойчивость сети: Добавлен механизм автоматических повторных попыток для лучшей обработки нестабильных интернет-соединений и временных ошибок сервера, обеспечивая более надежные ответы ИИ.
- Визуальный диалог перевода: Представлено специальное окно для результатов перевода. Теперь пользователи могут легко перемещаться и читать длинные переводы построчно, аналогично результатам OCR.
- Агрегированное форматированное представление: Функция "Просмотр форматированного" в окне чтения документов теперь отображает все обработанные страницы в едином организованном окне с четкими заголовками страниц.
- Оптимизированный рабочий процесс OCR: Автоматически пропускает выбор диапазона страниц для одностраничных документов, делая процесс распознавания быстрее и удобнее.
- Улучшенная стабильность API: Переход на более надежный метод аутентификации на основе заголовков, решающий потенциальные ошибки "Все API-ключи не работают", вызванные конфликтами ротации ключей.
- Исправление ошибок: Устранены несколько потенциальных сбоев, включая проблему при завершении работы дополнения и ошибку фокуса в диалоге чата.
Изменения в версии 4.0.1
- Продвинутое чтение документов: Мощное средство просмотра PDF и изображений с выбором диапазона страниц, фоновой обработкой и удобной навигацией
Ctrl+PageUp/Down. - Новое подменю "Инструменты": Добавлено специальное подменю "Vision Assistant" в меню "Инструменты" NVDA для более быстрого доступа к основным функциям, настройкам и документации.
- Гибкая настройка: Теперь вы можете выбрать предпочитаемый движок OCR и голос TTS непосредственно на панели настроек.
- Поддержка нескольких API-ключей: Добавлена поддержка нескольких API-ключей Gemini. Вы можете вводить по одному ключу на строку или разделять их запятыми в настройках.
- Альтернативный движок OCR: Представлен новый движок OCR для обеспечения надежного распознавания текста даже при достижении лимита квоты Gemini API.
- Умная ротация API-ключей: Автоматически переключается на самый быстрый работающий ключ и запоминает его для обхода ограничений квоты.
- Документ в MP3/WAV: Встроена возможность создания и сохранения высококачественных аудиофайлов в форматах MP3 (128kbps) и WAV непосредственно в окне чтения.
- Поддержка историй Instagram: Добавлена возможность описывать и анализировать истории Instagram, используя их URL.
- Поддержка TikTok: Представлена поддержка видео TikTok, позволяющая полное визуальное описание и расшифровку аудиодорожек клипов.
- Переработанный диалог обновлений: Имеет новый доступный интерфейс с текстовым полем с прокруткой для четкого чтения изменений версии перед установкой.
- Унифицированный статус и UX: Стандартизированы диалоги выбора файлов в дополнении и улучшена команда 'L' для отчета о прогрессе в реальном времени.
Изменения в версии 3.6.0
- Справка: Добавлена команда помощи (
H) на уровне команд для обеспечения легкодоступного списка всех горячих клавиш и их функций. - Анализ онлайн-видео: Расширена поддержка видео Twitter (X). Также улучшено обнаружение URL и стабильность для более надежного опыта.
- Вклад в проект: Добавлен необязательный диалог пожертвований для пользователей, желающих поддержать будущие обновления проекта и его постоянный рост.
Изменения в версии 3.5.0
- Уровень команд: Представлена система уровня команд (по умолчанию:
NVDA+Shift+V) для группировки горячих клавиш под одной основной клавишей. Например, вместо нажатияNVDA+Control+Shift+Tдля перевода, вы теперь нажимаетеNVDA+Shift+V, а затемT. - Анализ онлайн-видео: Добавлена новая функция для анализа видео YouTube и Instagram, просто указав URL.
Изменения в версии 3.1.0
- Режим прямого вывода: Добавлена опция для пропуска диалога чата и непосредственного прослушивания ответов ИИ через речь для более быстрого и плавного взаимодействия.
- Интеграция с буфером обмена: Добавлена новая настройка для автоматического копирования ответов ИИ в буфер обмена.
Изменения в версии 3.0
- Новые языки: Добавлены Персидский и Вьетнамский переводы.
- Расширенные ИИ-модели: Переорганизован список выбора моделей с четкими префиксами (
[Free],[Pro],[Auto]), чтобы помочь пользователям различать бесплатные и лимитированные (платные) модели. Добавлена поддержка Gemini 3.0 Pro и Gemini 2.0 Flash Lite. - Стабильность диктовки: Значительно улучшена стабильность умного диктофона. Добавлена проверка безопасности для игнорирования аудиоклипов короче 1 секунды, предотвращая галлюцинации ИИ и пустые ошибки.
- Обработка файлов: Исправлена проблема, из-за которой загрузка файлов с нелатинскими именами приводила к сбою.
- Оптимизация подсказок: Улучшена логика перевода и структурированы результаты Vision.
Изменения в версии 2.9
- Добавлены Французский и Турецкий переводы.
- Форматированное представление: Добавлена кнопка "Просмотр форматированного" в диалогах чата для просмотра беседы с правильным стилем (Заголовки, Жирный шрифт, Код) в стандартном окне с возможностью навигации.
- Настройка Markdown: Добавлена новая опция "Очищать Markdown в чате" в настройках. Снятие этого флажка позволяет пользователям видеть необработанный синтаксис Markdown (например,
**,#) в окне чата. - Управление диалогами: Исправлена проблема, когда окна "Обработки текста" или чата открывались несколько раз или не могли правильно сфокусироваться.
- Улучшения UX: Стандартизированы заголовки диалогов выбора файлов на "Открыть" и удалены избыточные речевые объявления (например, "Открытие меню...") для более плавного взаимодействия.
Изменения в версии 2.8
- Добавлен Итальянский перевод.
- Отчет о состоянии: Добавлена новая команда (NVDA+Control+Shift+I) для объявления текущего состояния дополнения (например, "Загрузка...", "Анализ...").
- Экспорт в HTML: Кнопка "Сохранить содержимое" в диалогах результатов теперь сохраняет вывод в виде форматированного HTML-файла, сохраняя стили, такие как заголовки и жирный текст.
- Интерфейс настроек: Улучшен макет панели настроек с доступной группировкой.
- Новые модели: Добавлена поддержка gemini-flash-latest и gemini-flash-lite-latest.
- Языки: Добавлен Непальский в поддерживаемые языки.
- Логика меню обработки: Исправлена критическая ошибка, из-за которой команды "Обработки текста" не работали, если язык интерфейса NVDA не был английским.
- Диктовка: Улучшено обнаружение тишины для предотвращения неправильного вывода текста, когда нет ввода речи.
- Настройки обновлений: "Проверять обновления при запуске" теперь отключено по умолчанию для соответствия политикам магазина дополнений.
- Очистка кода.
Изменения в версии 2.7
- Мигрирована структура проекта на официальный шаблон дополнений NV Access для лучшего соответствия стандартам.
- Реализована логика автоматических повторных попыток для ошибок HTTP 429 (Превышение лимита), чтобы обеспечить надежность при высоком трафике.
- Оптимизированы подсказки перевода для повышения точности и улучшения обработки логики "Умной замены".
- Обновлен Русский перевод.
Изменения в версии 2.6
- Добавлена поддержка Русского языка (Спасибо nvda-ru).
- Обновлены сообщения об ошибках для обеспечения более описательной обратной связи относительно подключения.
- Изменен язык перевода по умолчанию на Английский.
Изменения в версии 2.5
- Добавлена команда для OCR файлов (NVDA+Control+Shift+F).
- Добавлена кнопка "Сохранить чат" в диалоги результатов.
- Реализована полная поддержка локализации (i18n).
- Мигрирована аудио-обратная связь на собственный тоновый модуль NVDA.
- Переход на Google Gemini File API для лучшей обработки файлов PDF и аудио.
- Исправлен сбой при переводе текста, содержащего фигурные скобки.
Изменения в версии 2.1.1
- Исправлена проблема, из-за которой переменная
[file_ocr]некорректно работала в пользовательских подсказках.
Изменения в версии 2.1
- Стандартизированы все горячие клавиши на NVDA+Control+Shift для устранения конфликтов с раскладкой NVDA для ноутбуков и системными горячими клавишами.
Изменения в версии 2.0
- Реализована встроенная система автоматического обновления.
- Добавлен умный кэш перевода для мгновенного получения ранее переведенного текста.
- Добавлена память разговора для контекстной обработки результатов в диалогах чата.
- Добавлена специальная команда для перевода буфера обмена (NVDA+Control+Shift+Y).
- Оптимизированы ИИ-подсказки для строгого соблюдения целевого языка вывода.
- Исправлен сбой, вызванный специальными символами во входном тексте.
Изменения в версии 1.5
- Добавлена поддержка более 20 новых языков.
- Реализован интерактивный диалог обработки для уточняющих вопросов.
- Добавлена собственная функция умного диктофона.
- Добавлена категория "Vision Assistant" в диалог жестов ввода NVDA.
- Исправлены сбои COMError в特定ных приложениях, таких как Firefox и Word.
- Добавлен механизм автоматических повторных попыток при ошибках сервера.
Изменения в версии 1.0
- Первоначальный выпуск.