Перейти к основному содержимому Главная страница каталога дополнений для NVDA от русскоязычного сообщества NVDA.RU.

Официальный русскоязычный каталог дополнений NVDA

Крупнейший каталог дополнений для программы экранного доступа NVDA, доступный в Интернете

Каталог дополнений от 🇷🇺 русскоязычного сообщества NVDA.RU.

AIContentDescriber (Описатель контента с использованием искусственного интеллекта)

Краткое описание

Дополнение AIContentDescriber позволяет описать объект в фокусе, объект навигатора или экран с помощью популярного искусственного интеллекта GPT4 vision LLM.
Хотя описания контента довольно подробны, они не всегда могут быть полностью точными или отражать реальную информацию.
Для начала перейдите на сайт platform.openai.com и создайте учётную запись, а затем создайте ключ для взаимодействия с API.
Более подробную информацию об этом можно найти в документации к дополнению.
Затем в диалоге настроек NVDA выберите категорию описатель контента с помощью ИИ и введите свой ключ API.
Нажмите NVDA + shift + i, чтобы вызвать меню с запросом о способе описания на основе текущей позиции, или NVDA+shift+u, чтобы описать объект навигатора, или NVDA+shift+y для изображения, скопированного в буфер обмена, например, в проводнике Windows.
Другие сочетания клавиш можно настроить в диалоге жесты ввода.

Основная информация

Название Версия Совместимость с API NVDA Последняя протестированная версия NVDA Минимальная версия NVDA Дата загрузки в каталог Размер Лицензия
AIContentDescriber 2024.05.22 2024.1 2024.1 2023.1 11-06-2024 22:08:54 <171 Кб. GPL v2

Информация о локализации на русский язык

Скачать

AIContentDescriber-V.2024.05.22.nvda-addon

Разделы

Справка

Уважаемые пользователи сайта. Еще не все дополнения имеют локализованную справку, кроме того, не у всех дополнений есть справка.
Для того Чтобы узнать это, нажмите на следующую кнопку.

Подробнее

AIContentDescriber (Описатель контента с использованием искусственного интеллекта для NVDA)

Дополнение AIContentDescriber позволяет получать подробные описания для изображений, элементов управления пользовательского интерфейса и другого визуально недоступного контента.

Используя мультимодальные возможности передовых моделей искусственного интеллекта и алгоритмов компьютерного зрения, мы стремимся предоставить лучшие в своем классе описания контента и повысить общую независимость. Более подробную информацию о моделях, лежащих в основе, можно найти в соответствующем разделе этого документа.

Функции.

Пример использования

У этого проекта было несколько основных мотивов.

NVDA способна выполнять оптическое распознавание символов (OCR) из коробки, что меняет правила игры. Если вы пытаетесь извлечь текст из изображения или PDF-документа, это то, что вам нужно.

Однако OCR способен анализировать только те данные, которые могут быть текстом. Он не в состоянии учесть контекст, объекты и отношения, переданные в этих изображениях. А интернет полон ими. Логотипы, портреты, мемы, иконки, графики, диаграммы, гистограммы и линейные графики... Да что угодно. Они повсюду, и, как правило, не в том формате, в котором их могут интерпретировать пользователи программ для чтения с экрана. До недавнего времени авторы контента должны были предоставлять альтернативные текстовые описания. Хотя это по-прежнему необходимо, трудно изменить тот факт, что высокий стандарт качества является исключением, а не правилом.

Теперь возможности практически безграничны. Вы можете:

Модели

Следуйте инструкциям, приведенным ниже, чтобы заставить каждую из них работать.

Начало работы

Загрузите последнюю версию дополнения по этой ссылке. Щелкните по файлу на компьютере с установленной NVDA, а затем следуйте инструкциям ниже, чтобы получить API-ключ от поддерживаемого провайдера. Если вы не уверены, какой из них использовать, то, по общему мнению разработчиков и тестеров этого аддона, Gemini в настоящее время предлагает более приемлемые цены, в то время как OpenAI, похоже, обеспечивает более высокую степень точности. Claude 3 haiku - самый дешевый и быстрый вариант, но его качество оставляет желать лучшего. Конечно, эти результаты сильно зависят от поставленной задачи, поэтому мы рекомендуем поэкспериментировать с различными моделями и подсказками, чтобы найти то, что работает лучше всего.

Получение ключа API от OpenAI:

  1. Перейдите на сайт https://platform.openai.com/account/api-keys.
  2. Если у вас еще нет учетной записи, создайте ее. Если есть, войдите в него.
  3. На странице API-ключей нажмите, чтобы создать новый секретный ключ. Скопируйте его в буфер обмена.
  4. Пополните счет на сумму не менее 1 доллара.
  5. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «GPT4 Vision» в качестве провайдера, сделайте вкладку в поле API-ключа и вставьте сюда только что созданный ключ.

На момент написания статьи OpenAI выдает новым аккаунтам разработчиков кредиты, которые можно использовать в течение трех месяцев, после чего они теряются. По истечении этого срока вам придется покупать кредиты. Обычно их использование не превышает $5,00 в месяц. Для сравнения, оригинальная версия этого дополнения стоила чуть меньше доллара. Вы всегда можете войти в свой аккаунт OpenAI и нажать на «Использование», чтобы получить свою квоту.

Получение ключа API от Google

  1. Сначала вам нужно будет создать проект Google workspace, перейдя по этой ссылке. Убедитесь, что вы вошли в свой аккаунт. https://console.cloud.google.com/projectcreate
  2. Создайте имя длиной от четырех до тридцати символов, например «gemini» или «NVDA add-on».
  3. Перейдите по этому URL-адресу: https://makersuite.google.com/app/apikey
  4. Нажмите «Создать ключ API».
  5. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «Google Gemini» в качестве провайдера, сделайте вкладку в поле API-ключа и вставьте только что созданный ключ сюда.

Получение ключа API от Anthropic

  1. Войдите в консоль [Anthropic] (https://console.anthropic.com/login).
  2. Нажмите на свой профиль -> API-ключи.
  3. Нажмите кнопку Создать ключ.
  4. Введите имя ключа, например «AIContentDescriber», затем нажмите «Создать ключ» и скопируйте появившееся значение. Это то, что вы вставите в поле API-ключа в категории Ai Content Describer в диалоге настроек NVDA -> управление моделями -> Клод 3.
  5. Если вы еще не сделали этого, приобретите кредиты на сумму не менее $5 на странице планов на сайте https://console.anthropic.com/settings/plans.

Настройка llama.cpp

В настоящее время этот провайдер имеет некоторые ошибки, и ваш пробег может быть очень большим. Его могут использовать только опытные пользователи, заинтересованные в запуске локальных самодостаточных моделей и имеющие соответствующее оборудование.

  1. Загрузите llama.cpp. На момент написания этой статьи, этот pull request удаляет мультимодальные возможности, поэтому вы захотите использовать последнюю версию с поддержкой этого. Если вы работаете на графическом адаптере Nvidia с поддержкой CUDA, загрузите эти предварительно собранные двоичные файлы: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip и cudart-llama-bin-win-cu12.2.0-x64.zip. Шаги по работе с другим графическим адаптером не входят в эту тему, но могут быть найдены в readme к llama.cpp.
  2. Распакуйте оба файла в одну папку.
  3. Найдите в Huggingface квантованные форматы моделей, которые вы хотите использовать. Для LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf и mmproj-model-f16.gguf.
  4. Поместите эти файлы в папку с остальными двоичными файлами llama.cpp.
  5. Из командной строки запустите двоичный файл сервера llava.cpp, передав ему файлы .gguf для модели и мультимодального проектора (как показано ниже): server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf.
  6. В диалоговом окне настроек NVDA прокрутите вниз до категории AI Content Describer, затем выберите «manage models (alt+m)», выберите «llama.cpp» в качестве провайдера, сделайте закладку в поле base URL и введите конечную точку, показанную в консоли (по умолчанию «http://localhost:8080»).
  7. В качестве альтернативы вы можете пропустить некоторые из этих шагов и запустить llama.cpp на удаленном сервере с более высокими характеристиками, чем у вашей локальной машины, а затем ввести эту конечную точку.

Использование

По умолчанию привязаны четыре горячие клавиши:

Три жеста не привязаны:

Не стесняйтесь настраивать их в любое время в диалоге ввода жестов.

Создание дополнения

Чтобы создать пакет дополнения из исходных текстов, вам потребуется:

Затем откройте выбранный вами терминал:

git clone https://github.com/cartertemm/AI-content-describer.git
cd AI-content-describer
scons

После завершения выполнения команды scons в корень репозитория будет помещен файл *.nvda-addon, готовый к тестированию и выпуску.

Если вы добавите дополнительные строки, которые необходимо перевести, важно перестроить файл .pot следующим образом:

scons pot

Как перевести?

На машине с ОС Windows:

Вклад

Все они высоко ценятся и будут отмечены. Над аддоном работали следующие люди.

Столкнулись с проблемой? Отправьте ее в issue tracker

Есть предложение по новой функции? Создайте тикет и для этого, и мы сможем обсудить его реализацию. Pull-запросы без связанных с ними проблем будут рассмотрены, но, скорее всего, займут больше времени, особенно если я решу, что новое исправление или функциональность должны работать не так, как было предложено.

Переводы приветствуются с распростертыми объятиями. Чем больше людей смогут получить доступ к этой мощной технологии, тем лучше!

Если у вас нет Github или вы предпочитаете не использовать его, вы можете написать мне письмо - cartertemm (at) gmail (dot) com.

Спасибо за поддержку!

Перевод

История версий

Предыдущих версий нет.