Перейти к основному содержимому Главная страница каталога дополнений для NVDA от русскоязычного сообщества NVDA.RU.

Официальный русскоязычный каталог дополнений NVDA

Крупнейший каталог дополнений для программы экранного доступа NVDA, доступный в Интернете

Каталог дополнений от «🇷🇺 Русскоязычного сообщества NVDA.RU.»

18 ноября 2024 года русскоязычному каталогу дополнений NVDA-ADDONS.RU исполнилось два года.

AIContentDescriber (Описатель контента с использованием искусственного интеллекта)

Краткое описание

Дополнение AIContentDescriber позволяет описать объект в фокусе, объект навигатора или экран с помощью популярного искусственного интеллекта GPT4 vision LLM.
Хотя описания контента довольно подробны, они не всегда могут быть полностью точными или отражать реальную информацию.
Для начала перейдите на сайт platform.openai.com и создайте учётную запись, а затем создайте ключ для взаимодействия с API.
Более подробную информацию об этом можно найти в документации к дополнению.
Затем в диалоге настроек NVDA выберите категорию описатель контента с помощью ИИ и введите свой ключ API.
Нажмите NVDA + shift + i, чтобы вызвать меню с запросом о способе описания на основе текущей позиции, или NVDA+shift+u, чтобы описать объект навигатора, или NVDA+shift+y для изображения, скопированного в буфер обмена, например, в проводнике Windows.
Другие сочетания клавиш можно настроить в диалоге жесты ввода.

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название Версия Совместимость с API NVDA Последняя протестированная версия NVDA Минимальная версия NVDA Дата загрузки в каталог Размер Лицензия
AIContentDescriber 2025.02.05 2024.1 2024.1 2023.1 08-02-2025 15:55:06 228 Кб. GPL v2
🔝 Назад к оглавлению

Информация о локализации на русский язык

🔝 Назад к оглавлению

Скачать

AIContentDescriber-V.2025.02.05.nvda-addon

⬇ Перейти к истории версий 🔝 Назад к оглавлению

Разделы

🔝 Назад к оглавлению

Справка

Подробнее

AIContentDescriber (Описатель контента с использованием искусственного интеллекта для NVDA)

Дополнение AIContentDescriber позволяет получать подробные описания для изображений, элементов управления пользовательского интерфейса и другого визуально недоступного контента.

Используя мультимодальные возможности передовых моделей искусственного интеллекта и алгоритмов компьютерного зрения, мы стремимся предоставить лучшие в своем классе описания контента и повысить общую независимость. Более подробную информацию о моделях, лежащих в основе, можно найти в соответствующем разделе этого документа.

Функции.

Пример использования

У этого проекта было несколько основных мотивов.

NVDA способна выполнять оптическое распознавание символов (OCR) из коробки, что меняет правила игры. Если вы пытаетесь извлечь текст из изображения или PDF-документа, это то, что вам нужно.

Однако OCR способен анализировать только те данные, которые могут быть текстом. Он не в состоянии учесть контекст, объекты и отношения, переданные в этих изображениях. А интернет полон ими. Логотипы, портреты, мемы, иконки, графики, диаграммы, гистограммы и линейные графики... Да что угодно. Они повсюду, и, как правило, не в том формате, в котором их могут интерпретировать пользователи программ для чтения с экрана. До недавнего времени авторы контента должны были предоставлять альтернативные текстовые описания. Хотя это по-прежнему необходимо, трудно изменить тот факт, что высокий стандарт качества является исключением, а не правилом.

Теперь возможности практически безграничны. Вы можете:

Модели

Следуйте инструкциям, приведенным ниже, чтобы заставить каждую из них работать.

Начало работы

Загрузите последнюю версию дополнения по этой ссылке. Щелкните по файлу на компьютере с установленной NVDA, а затем следуйте инструкциям ниже, чтобы получить API-ключ от поддерживаемого провайдера. Если вы не уверены, какой из них использовать, то, по общему мнению разработчиков и тестеров этого аддона, Gemini в настоящее время предлагает более приемлемые цены, в то время как OpenAI, похоже, обеспечивает более высокую степень точности. Claude 3 haiku - самый дешевый и быстрый вариант, но его качество оставляет желать лучшего. Конечно, эти результаты сильно зависят от поставленной задачи, поэтому мы рекомендуем поэкспериментировать с различными моделями и подсказками, чтобы найти то, что работает лучше всего.

Получение ключа API от OpenAI:

  1. Перейдите на сайт https://platform.openai.com/account/api-keys.
  2. Если у вас еще нет учетной записи, создайте ее. Если есть, войдите в него.
  3. На странице API-ключей нажмите, чтобы создать новый секретный ключ. Скопируйте его в буфер обмена.
  4. Пополните счет на сумму не менее 1 доллара.
  5. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «GPT4 Vision» в качестве провайдера, сделайте вкладку в поле API-ключа и вставьте сюда только что созданный ключ.

На момент написания статьи OpenAI выдает новым аккаунтам разработчиков кредиты, которые можно использовать в течение трех месяцев, после чего они теряются. По истечении этого срока вам придется покупать кредиты. Обычно их использование не превышает $5,00 в месяц. Для сравнения, оригинальная версия этого дополнения стоила чуть меньше доллара. Вы всегда можете войти в свой аккаунт OpenAI и нажать на «Использование», чтобы получить свою квоту.

Получение ключа API от Google

  1. Сначала вам нужно будет создать проект Google workspace, перейдя по этой ссылке. Убедитесь, что вы вошли в свой аккаунт. https://console.cloud.google.com/projectcreate
  2. Создайте имя длиной от четырех до тридцати символов, например «gemini» или «NVDA add-on».
  3. Перейдите по этому URL-адресу: https://makersuite.google.com/app/apikey
  4. Нажмите «Создать ключ API».
  5. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «Google Gemini» в качестве провайдера, сделайте вкладку в поле API-ключа и вставьте только что созданный ключ сюда.

Получение ключа API от Anthropic

  1. Войдите в консоль [Anthropic] (https://console.anthropic.com/login).
  2. Нажмите на свой профиль -> API-ключи.
  3. Нажмите кнопку Создать ключ.
  4. Введите имя ключа, например «AIContentDescriber», затем нажмите «Создать ключ» и скопируйте появившееся значение. Это то, что вы вставите в поле API-ключа в категории Ai Content Describer в диалоге настроек NVDA -> управление моделями -> Клод 3.
  5. Если вы еще не сделали этого, приобретите кредиты на сумму не менее $5 на странице планов на сайте https://console.anthropic.com/settings/plans.

Установка Ollama

В настоящее время это предпочтительный вариант для локальной установки.

Хотя интеграция Ollama была протестирована более тщательно, чем llama.cpp, она все еще менее стабильна, чем обращение к API, и было известно, что в некоторых конфигурациях она ведет себя странно, вплоть до сбоев на машинах, не обладающих необходимыми спецификациями. Как минимум, если вы пробуете это в первый раз, сохраните все документы и все важное, прежде чем продолжать, на случай, если это произойдет с вами.

Начните с того, что убедитесь, что вы можете взаимодействовать с выбранной вами моделью с поддержкой зрения с помощью интерфейса командной строки. Для этого необходимо выполнить следующие шаги:

  1. Загрузите установочный файл Ollama для Windows со страницы Ollama downloads.
  2. Запустите этот установочный файл. Он подхватит все зависимости, которые потребуются вашей машине.
  3. Найдите модель, которую вы хотите использовать. Список можно найти на ollama.com -> models -> vision, или здесь.
  4. Загрузите и запустите эту модель, открыв командную строку и набрав ollama run [имя_модели], разумеется, заменив «имя_модели» на то, что вы выбрали в шаге 3. Например, ollama run llama3.2-vision.
  5. Если процесс завершился успешно, вы окажетесь в интерактивной оболочке, в которой можно вводить запросы и получать ответы от модели, подумайте о локализованном (и ограниченном) ChatGPT. Введите «/bye», чтобы выйти из этого интерфейса.
  6. Вернувшись в окно консоли, введите ollama list. В первом столбце будет указано имя вроде «llama3.2-vision:latest».
  7. Перейдите в настройки AI Content Describer -> управление моделями -> Ollama. В поле имя модели введите это значение и нажмите OK -> OK. Все готово! Переключитесь на Ollama в подменю моделей, и через некоторое время она должна заработать.

Настройка llama.cpp

В настоящее время этот провайдер имеет некоторые ошибки, и ваш пробег может быть очень большим. Его могут использовать только опытные пользователи, заинтересованные в запуске локальных самодостаточных моделей и имеющие соответствующее оборудование.

  1. Загрузите llama.cpp. На момент написания этой статьи, этот pull request удаляет мультимодальные возможности, поэтому вы захотите использовать последнюю версию с поддержкой этого. Если вы работаете на графическом адаптере Nvidia с поддержкой CUDA, загрузите эти предварительно собранные двоичные файлы: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip и cudart-llama-bin-win-cu12.2.0-x64.zip. Шаги по работе с другим графическим адаптером не входят в эту тему, но могут быть найдены в readme к llama.cpp.
  2. Распакуйте оба файла в одну папку.
  3. Найдите в Huggingface квантованные форматы моделей, которые вы хотите использовать. Для LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf и mmproj-model-f16.gguf.
  4. Поместите эти файлы в папку с остальными двоичными файлами llama.cpp.
  5. Из командной строки запустите двоичный файл сервера llava.cpp, передав ему файлы .gguf для модели и мультимодального проектора (как показано ниже): server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf.
  6. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «llama.cpp» в качестве провайдера, сделайте закладку в поле base URL и введите конечную точку, показанную в консоли (по умолчанию «http://localhost:8080»).
  7. В качестве альтернативы вы можете пропустить некоторые из этих шагов и запустить llama.cpp на удаленном сервере с более высокими характеристиками, чем у вашей локальной машины, а затем ввести эту конечную точку.

Использование

По умолчанию привязаны четыре горячие клавиши:

Три жеста не назначены:

Не стесняйтесь настраивать их в любое время в диалоге ввода жестов.

Создание дополнения

Чтобы создать пакет дополнения из исходных текстов, вам потребуется:

Затем откройте выбранный вами терминал:

git clone https://github.com/cartertemm/AI-content-describer.git
cd AI-content-describer
scons

После завершения выполнения команды scons в корень репозитория будет помещен файл *.nvda-addon, готовый к тестированию и выпуску.

Если вы добавите дополнительные строки, которые необходимо перевести, важно перестроить файл .pot следующим образом:

scons pot

Как перевести?

На машине с ОС Windows:

Вклад

Все они высоко ценятся и будут отмечены. Над аддоном работали следующие люди.

Столкнулись с проблемой? Отправьте ее в issue tracker

Есть предложение по новой функции? Создайте тикет и для этого, и мы сможем обсудить его реализацию. Pull-запросы без связанных с ними проблем будут рассмотрены, но, скорее всего, займут больше времени, особенно если я решу, что новое исправление или функциональность должны работать не так, как было предложено.

Переводы приветствуются с распростертыми объятиями. Чем больше людей смогут получить доступ к этой мощной технологии, тем лучше!

Если у вас нет Github или вы предпочитаете не использовать его, вы можете написать мне письмо - cartertemm (at) gmail (dot) com.

Спасибо за поддержку!

Перевод

🔝 Назад к оглавлению

История версий

Список версий
🔝 Назад к оглавлению