AIContentDescriber (Описатель контента с использованием искусственного интеллекта)
- Автор: Carter Temm
- Исходный код дополнения: Посетить Web-сайт AIContentDescriber
Краткое описание
Дополнение AIContentDescriber позволяет описать объект фокусировки, объект навигатора или экран с помощью популярного GPT4 vision artificial intelegence LLM.
Хотя описания содержимого достаточно подробны, они не всегда могут быть полностью точными или отражать реальную информацию.
Основная информация
Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
---|---|---|---|---|---|---|---|
AIContentDescriber | 2023.11.23 | 2023.1 | 2023.2 | 2023.1 | 27-12-2023 23:55:34 | <3817 Кб. | GPL v2 |
Информация о локализации на русский язык
Скачать
AIContentDescriber-V.2023.11.23.nvda-addon
Разделы
Справка
Уважаемые пользователи сайта. Еще не все дополнения имеют локализованную справку, кроме того, не у всех дополнений есть справка.
Для того Чтобы узнать это, нажмите на следующую кнопку.
Подробнее
Описатель контента с использованием искусственного интеллекта для NVDA
Дополнение AIContentDescriber позволяет получать подробные описания для изображений и другого визуально недоступного контента.
Используя мультимодальные возможности большой языковой модели GPT-4, мы стремимся предоставить лучшие в своем классе описания контента. Более подробную информацию о модели см. в GPT-4V.
Функции.
- Описывать объект фокуса, объект навигатора или весь экран.
- Описывать любое изображение, скопированное в буфер обмена, будь то картинка из электронного письма или путь в проводнике windows.
- Поддержка широкого спектра форматов, включая PNG (.png), JPEG (.jpeg и .jpg), WEBP (.webp) и неанимированный GIF (.gif)
- Опционально кэширует ответы для сохранения квоты API.
- Для расширенного использования настройка запроса и количества маркеров для адаптации информации к вашим потребностям
Пример использования
У этого проекта было несколько основных мотивов.
NVDA способна выполнять оптическое распознавание символов (OCR) из коробки, что меняет ситуацию. Если вы пытаетесь получить текст из изображения или PDF-документа, это то, что вам нужно.
Однако OCR способен анализировать только те данные, которые могут быть текстом. Он не в состоянии учесть контекст, объекты и отношения, передаваемые в этих изображениях. А Интернет полон ими. Логотипы, портреты, мемы, иконки, графики, диаграммы, столбчатые/линейные графики... Как угодно. Они повсюду, и, как правило, не в том формате, в котором их могут интерпретировать пользователи программ чтения с экрана. До недавнего времени было принято полагаться на то, что авторы контента будут предоставлять альтернативные текстовые описания. Хотя это по-прежнему необходимо, трудно изменить тот факт, что высокий стандарт качества является исключением, а не правилом.
Теперь возможности практически безграничны. Вы можете:
- Визуализировать рабочий стол или конкретное окно, чтобы понять расположение значков при обучении.
- Получить подробную информацию о состоянии игр, виртуальных машин и т.д. при недостаточном или недоступном звуке
- Понять, что отображается на графике.
- Демистифицировать скриншоты
- Убедитесь, что ваше лицо четко смотрит в камеру, прежде чем записывать видео или участвовать в онлайн-совещаниях
Начало работы
Загрузите последнюю версию дополнения с сайта по этой ссылке. Щелкните по файлу на компьютере с установленной NVDA, а затем следуйте приведенным ниже инструкциям для получения API-ключа от OpenAI:
- Перейдите на сайт https://platform.openai.com/account/api-keys.
- Если у вас еще нет учетной записи, создайте ее. Если есть, войдите в систему.
- На странице API-ключей нажмите кнопку создания нового секретного ключа. Скопируйте его в буфер обмена.
- Пополните счет на сумму не менее 1 долл.
- В диалоговом окне настроек NVDA прокрутите вниз до категории Описатель контента с использованием искусственного интеллекта, затем перейдите по вкладке в поле API-ключа и вставьте сюда только что сгенерированный ключ.
На момент написания статьи OpenAI выдает кредиты на новые аккаунты разработчиков, которые можно использовать в течение трех месяцев, после чего они теряются.
По истечении этого срока кредиты придется покупать. Обычно их использование не превышает 5,00 долл. в месяц. Для сравнения: первоначальная версия этого дополнения была разработана по цене чуть меньше доллара. Всегда можно войти в свою учетную запись OpenAI и, нажав на кнопку "Использование", получить свою квоту.
Использование
По умолчанию привязаны три горячие клавиши:
- NVDA+Shift+I: Вызывает меню, в котором предлагается описать с помощью ИИ текущий фокус, объект навигатора или весь экран.
- NVDA+Shift+U: Описать содержимое текущего объекта навигатора с помощью ИИ.
- NVDA+Shift+Y: Описать изображение (или путь к файлу изображения) в буфере обмена с помощью ИИ.
Два жеста являются неназначенными:
- Описать содержимое текущего сфокусированного объекта с помощью ИИ.
- Сделать снимок экрана, а затем описать его с помощью ИИ.
Настроить сочетание команд можно в любой момент из диалога Жесты ввода.
Сборка дополнения
Для создания пакета дополнения из исходных текстов вам потребуется:
- дистрибутив Python (рекомендуется 3.7 или более поздняя версия). Инсталляторы для Windows можно найти на Python Website. Обратите внимание, что в настоящее время для подготовки исходного кода NVDA и включенных в него сторонних модулей требуется 32-битная версия Python 3.7.
- Scons - Сайт - версия 4.3.0 или более поздняя. Установить его можно через PIP.
pip install scons
- Markdown 3.3.0 или более поздней версии.
pip install markdown
.
Затем откройте терминал:
git clone https://github.com/cartertemm/AI-content-describer.git
scons
После завершения выполнения команды scons
вы должны увидеть файл *.nvda-addon, готовый к выпуску.
Вклад
Мы будем очень признательны за любой вклад.
Нашли проблему? Отправьте ее в отслеживание проблем.
Есть предложение по новой функции? Создайте тикет и для этого, и мы сможем обсудить его реализацию. Pull-запросы без связанных с ними проблем будут рассмотрены, но, скорее всего, займут у всех больше времени, особенно если я решу, что новое исправление или функциональность должны работать по-другому.
Переводы приветствуются с распростертыми объятиями.
Если у вас нет Github или вы предпочитаете не использовать его, вы можете написать мне письмо - cartertemm (at) gmail (dot) com.
Спасибо за поддержку!
Перевод
История версий
Предыдущих версий нет.Вернуться на главную сайта: NVDA-ADDONS.RU или NVDA.RU