Перейти к основному содержимому Главная страница каталога дополнений для NVDA от русскоязычного сообщества NVDA.RU.

Официальный русскоязычный каталог дополнений NVDA

Крупнейший каталог дополнений для программы экранного доступа NVDA, доступный в Интернете

Каталог дополнений от «🇷🇺 Русскоязычного сообщества NVDA.RU.»

AIContentDescriber (Описатель контента с использованием искусственного интеллекта)

Автор:

Краткое описание

Дополнение AI Content Describer позволяет получать подробные описания изображений и элементов интерфейса с помощью искусственного интеллекта.
• Вы можете описать текущий фокус, объект навигатора, весь экран или сделать снимок с камеры.
• Дополнение поддерживает множество провайдеров: OpenAI GPT, Pollinations, Google Gemini, Mistral Pixtral, Anthropic Claude, xAI Grok, vivo BlueLM Vision (через NVDA-CN), Ollama, llama.cpp, LiteLLM Proxy и Seer.
• Описания можно кэшировать для экономии квоты API.
• Вы можете задавать уточняющие вопросы и прикреплять дополнительные изображения.
• Встроенная функция распознавания лиц определяет положение лица в кадре без подключения к API.
• Поддерживаются форматы PNG, JPEG, WEBP и неанимированные GIF.
• Для продвинутого использования доступна настройка подсказки (промпта) и количества токенов.
• Результаты можно открывать в диалоге обзора с поддержкой рендеринга Markdown.
• По умолчанию используется бесплатный доступ к GPT4 через Pollinations.
• Для работы с другими моделями можно указать собственный ключ API.

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название Версия Совместимость с API NVDA Последняя протестированная версия NVDA Минимальная версия NVDA Дата загрузки в каталог Размер Лицензия
AIContentDescriber 2026.05.06 2026.1 2026.1 2023.1 14-05-2026 21:50:44 435 Кб. GPL v2
🔝 Назад к оглавлению

Информация о локализации на русский язык

🔝 Назад к оглавлению

Скачать

AIContentDescriber-V.2026.05.06.nvda-addon

⬇ Перейти к истории версий 🔝 Назад к оглавлению

Разделы

🔝 Назад к оглавлению

Справка

Подробнее

AIContentDescriber (Описатель контента с использованием искусственного интеллекта для NVDA)

Это дополнение позволяет получать подробные описания изображений, элементов интерфейса и другого визуально недоступного содержимого.

Используя мультимодальные возможности современных моделей ИИ и алгоритмы компьютерного зрения, мы стремимся предоставлять описания высокого качества и повышать общую независимость. Для получения дополнительной информации об используемых моделях обратитесь к соответствующему разделу этого документа.

Возможности

Сценарии использования

У этого проекта было несколько основных мотивов.

NVDA из коробки поддерживает оптическое распознавание символов (OCR), что является переломным моментом. Если вы пытаетесь извлечь текст из изображения или PDF-документа, то это то, что вам нужно.

Однако OCR способен анализировать только данные, которые могут быть текстом. Он не учитывает контекст, объекты и взаимосвязи, передаваемые на этих изображениях. А интернет ими полон. Логотипы, портреты, мемы, иконки, графики, диаграммы, столбчатые/линейные графики… Что угодно. Они повсюду, и обычно не в том формате, который могут интерпретировать пользователи скринридеров. До недавнего времени существовала неизменная зависимость от авторов контента, предоставляющих альтернативные текстовые описания. Хотя это по-прежнему необходимо, трудно изменить тот факт, что высокий стандарт качества — это скорее исключение, чем правило.

Теперь возможности почти безграничны. Вы можете:

Модели

Следуйте инструкциям ниже, чтобы настроить каждый из этих вариантов.

Начало работы

Загрузите последнюю версию дополнения по этой ссылке. Нажмите на файл на компьютере с установленной NVDA и следуйте инструкциям по установке.

Начиная с версии 2025.06.05, использование GPT4 бесплатно благодаря щедрости сообщества PollinationsAI.

Если у вас есть ресурсы и интерес к изучению дополнительных моделей, вы всегда можете использовать свой собственный ключ API и уменьшить количество запросов к их серверам. Если нет, просто перейдите к разделу «Использование» этого документа.

Следуйте инструкциям ниже, чтобы получить ключ API от поддерживаемого провайдера.

Какую модель мне следует использовать?

Раньше мы давали рекомендации по самым дешёвым и качественным вариантам, но ситуация меняется настолько быстро, что нет возможности поддерживать эту информацию в актуальном состоянии.

Короткий ответ заключается в том, что большинство современных моделей достигли точности, достаточной для большинства повседневных задач, поэтому выбирайте провайдера, с которым вы знакомы.

Большинство людей хотят найти баланс между точностью и стоимостью. LLM arena leaderboard (особенно категория vision) измеряет корректность, а LLM pricing calculator показывает цены.

Получение ключа API от OpenAI:

  1. Перейдите на страницу ключей API OpenAI
  2. Если у вас ещё нет учётной записи, создайте её. Если есть, войдите.
  3. На странице ключей API нажмите «создать новый секретный ключ». Скопируйте его в буфер обмена.
  4. Пополните счёт как минимум на 1 доллар.
  5. В диалоге настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «управление моделями (alt+m)», выберите любую из моделей OpenAI (например, «GPT-4 omni») в качестве провайдера, перейдите в поле ключа API и вставьте только что сгенерированный ключ.

На момент написания этого текста OpenAI выдаёт кредиты новым аккаунтам разработчиков, которые можно использовать в течение трёх месяцев, после чего они теряются. По истечении этого периода вам нужно будет приобрести кредиты. Обычное использование вряд ли превысит 5 долларов в месяц. Для справки: оригинальная версия этого дополнения была разработана чуть менее чем за доллар. Вы всегда можете войти в свою учётную запись OpenAI и нажать «использование» (usage), чтобы увидеть свою квоту.

Получение ключа API от Google

  1. Сначала вам нужно создать проект в Google Workspace, перейдя в Google cloud console. Убедитесь, что вы вошли в свою учётную запись Google.
  2. Создайте имя длиной от четырёх до тридцати символов, например «Gemini» или «NVDA add-on».
  3. Перейдите на страницу ключей API Google AI studio
  4. Нажмите «создать ключ API».
  5. В диалоге настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «управление моделями (alt+m)», выберите «Google Gemini» в качестве провайдера, перейдите в поле ключа API и вставьте только что сгенерированный ключ.

Получение ключа API от Anthropic

  1. Войдите в консоль Anthropic.
  2. Нажмите на свой профиль -> API keys.
  3. Нажмите Create Key.
  4. Введите имя для ключа, например «AIContentDescriber», затем нажмите «Create Key» и скопируйте появившееся значение. Это то, что вы вставите в поле ключа API в категории AI Content Describer диалога настроек NVDA -> управление моделями -> любая модель Claude 4.x (например, «Claude 4.6 Sonnet»).
  5. Если вы ещё этого не сделали, приобретите кредиты на сумму не менее 5 долларов на странице планов Anthropic.

Получение ключа API от Mistral

  1. Войдите в свою учётную запись MistralAI или создайте её, перейдя на страницу входа MistralAI.
  2. Если вы создаёте или входите в учётную запись впервые, добавьте рабочее пространство (workspace) как будет предложено, указав имя и приняв условия.
  3. После входа в систему выберите «API keys» в меню.
  4. Нажмите «create a new key» и скопируйте его в буфер обмена. Это значение нужно вставить в поле ключа API в категории AI Content Describer диалога настроек NVDA -> управление моделями -> Pixtral Large.
  5. Пополните счёт, если необходимо.

Активация модели VIVO BlueLM Vision через NVDA-CN

Этот сервис предоставляется бесплатно благодаря партнёрству между VIVO (vivo.com.cn) и Китайским сообществом NVDA (NVDACN). Он обеспечивает высококачественное мультимодальное распознавание и является рекомендуемой моделью для всех пользователей, особенно для начинающих.

Для использования этой модели вам нужна только бесплатная учётная запись NVDA- CN.

  1. Создайте учётную запись: перейдите на страницу регистрации NVDA-CN: https://nvdacn.com/admin/register.php.
    • Примечание : Страница в настоящее время на китайском языке. Рекомендуем использовать встроенную функцию перевода вашего браузера для заполнения формы.
    • Вас попросят указать имя пользователя, пароль и действующий адрес электронной почты. Обязательно сохраните свой пароль в надёжном месте, так как автоматическое восстановление пароля пока не реализовано.
  2. Подтвердите адрес электронной почты: проверьте свой почтовый ящик на наличие письма для подтверждения и перейдите по ссылке внутри него, чтобы активировать учётную запись.
  3. Настройте дополнение:
    • Откройте диалог настроек NVDA и перейдите в категорию «AI Content Describer».
    • Выберите кнопку «Управление моделями».
    • В списке провайдеров выберите «vivo BlueLM Vision (NVDA-CN)».
    • Введите ваше имя пользователя и пароль NVDA-CN в соответствующие поля.
    • Нажмите OK, чтобы сохранить учётные данные.

Теперь вы настроили использование модели VIVO. По любым вопросам, связанным с учётной записью, вы можете связаться с командой NVDA-CN по адресу support@nvdacn.com.

Настройка Ollama

В настоящее время это предпочтительный вариант для локальной установки.

Хотя интеграция с Ollama была протестирована более тщательно, чем с llama.cpp, она всё ещё менее стабильна, чем вызов API, и, как известно, ведёт себя странно при некоторых конфигурациях, вплоть до вылетов на машинах, не соответствующих требуемым характеристикам. По крайней мере, когда вы пробуете это в первый раз, сохраните все документы и всё важное, прежде чем продолжить, на случай, если это произойдёт с вами.

Начните с того, что убедитесь, что вы можете взаимодействовать с предпочитаемой моделью, поддерживающей зрение, используя интерфейс командной строки. Для этого выполните следующие шаги:

  1. Загрузите установочный файл Ollama для Windows со страницы загрузки Ollama.
  2. Запустите этот установочный файл. Он позаботится о загрузке всех зависимостей, необходимых вашей машине.
  3. Найдите модель, которую вы хотите использовать. Список можно найти на ollama.com -> models -> vision, или непосредственно здесь.
  4. Загрузите и запустите эту модель, открыв командную строку и введя ollama run [имя_модели], конечно, заменив «[имя_модели]» на ту, которую вы выбрали на шаге 3. Например, ollama run llama3.2-vision.
  5. Если процесс завершился успешно, вы попадёте в интерактивную оболочку, в которой можно вводить запросы и получать ответы от модели — что-то вроде локализованного (и ограниченного) ChatGPT. Проверьте это, спросив что-нибудь (что угодно), чтобы увидеть, работает ли это, затем введите «/bye», чтобы выйти из этого интерфейса.
  6. Вернувшись в окно консоли, введите ollama list. В первом столбце будет указано имя, например «llama3.2-vision:latest».
  7. Перейдите в настройки AI Content Describer -> управление моделями -> Ollama. В поле имени модели введите это значение и нажмите OK -> OK. Всё готово! Переключитесь на Ollama в подменю моделей, и после некоторого времени она должна заработать.

Настройка llama.cpp

Этот провайдер в настоящее время несколько глючен, и его работа может быть непредсказуемой. Его действительно следует пытаться использовать только продвинутым пользователям, заинтересованным в запуске локальных саморазмещаемых моделей, и имеющим соответствующее оборудование.

  1. Загрузите llama.cpp. На момент написания этого текста этот пул-реквест удаляет мультимодальные возможности, поэтому вы захотите использовать последнюю версию с поддержкой этого. Если вы работаете на графическом адаптере Nvidia с поддержкой CUDA, загрузите эти предварительно скомпилированные двоичные файлы: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip и cudart-llama-bin-win-cu12.2.0-x64.zip Действия для работы с другим графическим адаптером выходят за рамки этой документации, но их можно найти в файле readme llama.cpp.
  2. Извлеките оба этих файла в одну и ту же папку.
  3. Найдите квантованные форматы моделей, которые вы хотите использовать, на Huggingface. Для LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf и mmproj-model-f16.gguf
  4. Поместите эти файлы в папку с остальными двоичными файлами llama.cpp.
  5. Из командной строки запустите серверный двоичный файл llava.cpp, передав файлы .gguf для модели и мультимодального проектора (как показано ниже): server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf
  6. В диалоге настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «управление моделями (alt+m)», выберите «llama.cpp» в качестве провайдера, перейдите в поле базового URL и введите конечную точку, показанную в консоли (по умолчанию «http://localhost:8080»).
  7. В качестве альтернативы вы можете пропустить некоторые из этих шагов и запустить llama.cpp на удалённом сервере с более высокими характеристиками, чем ваша локальная машина, а затем ввести эту конечную точку.

Настройка LiteLLM Proxy

LiteLLM Proxy предоставляет унифицированный интерфейс для доступа к нескольким моделям ИИ через единую конечную точку, упрощая управление моделями и позволяя легко переключаться между провайдерами.

  1. Настройте прокси-сервер LiteLLM, следуя документации LiteLLM proxy. Вы можете запустить прокси локально или использовать удалённый сервер.
  2. Если вы запускаете локально, самый быстрый способ начать: pip install 'litellm[proxy]' litellm --model gpt-4o Это запустит прокси-сервер по адресу http://localhost:4000, который будет перенаправлять запросы к OpenAI GPT-4o.
  3. Для использования в производственной среде создайте файл config.yaml для настройки нескольких моделей и аутентификации. Подробности смотрите в руководстве по конфигурации LiteLLM.
  4. В диалоге настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «управление моделями (alt+m)», выберите «LiteLLM Proxy» в качестве провайдера.
  5. Введите URL-адрес вашего прокси-сервера в поле базового URL (например, «http://localhost:4000» для локального или URL-адрес вашего удалённого сервера).
  6. Если ваш прокси требует аутентификации, введите ключ API в поле ключа API. Если нет, оставьте его пустым.
  7. Нажмите кнопку «Список моделей», чтобы получить доступные модели от вашего прокси, затем выберите модель, которую хотите использовать, из раскрывающегося списка.
  8. При необходимости настройте другие параметры, такие как подсказка (промпт), максимальное количество токенов и тайм-аут, затем нажмите OK.

Примечание: доступные модели и их возможности зависят от конфигурации вашего прокси-сервера LiteLLM. Убедитесь, что ваш прокси настроен с моделями, поддерживающими зрение, для описания изображений.

Настройка Seer

Seer запускает PaliGemma2 на вашем собственном компьютере без необходимости в ключе API или подключении к облаку. Обратите внимание, что это модель только для создания заголовков (captioning); подсказки (промпты) и уточняющие вопросы не поддерживаются.

  1. Установите демон Seer. Для Windows (.bat) и Linux/macOS (.sh) предоставляется установщик с одной командой.
  2. В диалоге настроек NVDA перейдите в категорию AI Content Describer, выберите «управление моделями (alt+m)» и выберите «Seer (требуется установка)».
  3. Базовый URL по умолчанию — http://127.0.0.1:11435. Оставьте его как есть, если вы не изменили порт демона.
  4. Нажмите OK. Демон должен быть запущен до того, как вы попытаетесь выполнить описание.

Использование

По умолчанию назначено пять горячих клавиш:

Три жеста не назначены:

Не стесняйтесь настраивать их в любое время в диалоге «Жесты ввода».

Уточнение описания

Иногда ответ, полученный от ИИ, может быть недостаточным. Возможно, изображение низкого качества, неполное или содержит ненужные детали. Возможно, вы захотите сосредоточиться только на определённой части или сделать более чёткое фото, не теряя контекста. После получения описания вы можете нажать NVDA+alt+c или выбрать «Уточнить предыдущее описание» в контекстном меню AI Content Describer (NVDA+shift+i). По умолчанию фокус устанавливается в поле сообщения. Чтобы добавить дополнительное изображение, просто оставьте окно беседы открытым и используйте дополнение как обычно. Когда снимок сделан (будь то с камеры, элемента управления, снимок экрана и т. д.), вас спросят, хотите ли вы прикрепить его к текущему сеансу или начать новый.

Сборка дополнения

Чтобы создать пакет дополнения из исходного кода, вам понадобится:

Затем откройте ваш любимый терминал:

git clone https://github.com/cartertemm/AI-content-describer.git cd AI- content-describer scons

После завершения выполнения команды scons файл *.nvda-addon будет помещён в корень этого репозитория, готовый к тестированию и выпуску.

Если вы добавляете новые строки, требующие перевода, важно пересобрать файл .pot следующим образом:

scons pot

Как перевести?

На компьютере с Windows:

Участники

Все вклады высоко ценятся и будут отмечены. Следующие люди работали над дополнением.

Столкнулись с проблемой? Сообщите о ней в трекере проблем

Есть предложение по новой функции? Создайте заявку и для неё, и мы сможем обсудить её реализацию. Запросы на включение (pull requests) без связанных с ними заявок будут рассмотрены, но, вероятно, займут больше времени у всех, особенно если я решу, что новое исправление или функциональность должна работать иначе, чем было предложено.

Переводы приветствуются с распростёртыми объятиями. Чем больше людей смогут получить доступ к этой мощной технологии, тем лучше!

Если у вас нет Github или вы предпочитаете не использовать его, вы можете написать мне по электронной почте — cartertemm (at) gmail (dot) com.

Спасибо за поддержку!

Перевод

🔝 Назад к оглавлению

История версий

История версий
Версия файлаТестируемая версия NVDAМинимальная версия NVDAРазмер файла (КБ)Ссылка на загрузку
2026.05.062026.12023.1435AIContentDescriber-V.2026.05.06.nvda-addon
2025.06.172025.12023.1311AIContentDescriber-V.2025.06.17.nvda-addon
2025.06.092024.12023.1282AIContentDescriber-V.2025.06.09.nvda-addon
2025.06.052024.12023.1270AIContentDescriber-V.2025.06.05.nvda-addon
2025.02.052024.12023.1228AIContentDescriber-V.2025.02.05.nvda-addon
2024.05.222024.12023.1171AIContentDescriber-V.2024.05.22.nvda-addon
2024.05.162024.12023.1170AIContentDescriber-V.2024.05.16.nvda-addon
2024.04.142024.12023.194AIContentDescriber-V.2024.04.14.nvda-addon
2024.03.292023.22023.140682AIContentDescriber-V.2024.03.29.nvda-addon
2024.03.132023.22023.13834AIContentDescriber-V.2024.03.13.nvda-addon
2024.03.092023.22023.13973AIContentDescriber-V.2024.03.09.nvda-addon
2023.11.232023.22023.13817AIContentDescriber-V.2023.11.23.nvda-addon
🔝 Назад к оглавлению