XPoseImageCaptioner (EI-описание изображений XPose)

Автор: 'Christopher Millsap
Исходный код дополнения: Посетить Web-сайт XPoseImage Captioner

Краткое описание

Дополнение XPoseImageCaptioner позволяет создавать AI описание к изображениям JPEG и PNG из проводника файлов Windows, Microsoft Edge, Google Chrome и Firefox.
Оно делает все выводы на локальной машине пользователя, а не полагается на удаленный сервер для создания описания к изображению.
Для использования сначала выберите изображение с помощью навигационного курсора, затем нажмите сочетание клавиш NVDA+x, чтобы запустить дополнение.
Дополнение выдаст сообщение «Описываю, пожалуйста, подождите», пока искусственный интеллект будет создавать подписи к изображению.
Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашей машины. После того как ИИ завершит создание надписи, откроется окно, в котором будет показан текст описания, и текст описания будет прочитан. Окно с надписью можно закрыть, нажав Escape.
Для создания описаний используется Локальная нейронная сеть BLIP.
Работает без подключения к интернету. Описание предоставляется на английском языке.
Примечание: В локализованной версии можно изменить сочетание клавиш в жестах ввода, в разделе Описание изображений XPose, Описать изображение с помощью.

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название	Версия	Совместимость с API NVDA	Последняя протестированная версия NVDA	Минимальная версия NVDA	Дата загрузки в каталог	Размер	Лицензия
XPoseImage Captioner	0.8.9	2024.1	2024.1	2022.1	30-09-2024 18:56:37	195176 Кб.	GPL v2

🔝 Назад к оглавлению

Справка

Подробнее

XPoseImageCaptioner (EI-описание изображений XPose)

Обзор:

Дополнение XPoseImageCaptioner позволяет создавать AI описание к изображениям JPEG и PNG из проводника файлов Windows, Microsoft Edge, Google Chrome и Firefox. Оно делает все выводы на локальной машине пользователя, а не полагается на удаленный сервер для создания описания к изображению. Для использования сначала выберите изображение с помощью навигационного курсора, затем нажмите сочетание клавиш NVDA+x, чтобы запустить дополнение. Дополнение выдаст сообщение «Описываю, пожалуйста, подождите», пока искусственный интеллект будет создавать подписи к изображению. Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашей машины. После того как ИИ завершит создание надписи, откроется окно, в котором будет показан текст описания, и текст описания будет прочитан. Окно с надписью можно закрыть, нажав Escape.

Получение максимальной отдачи от XPoseImage Captioner

При использовании XPoseImageCaptioner необходимо учитывать несколько моментов, чтобы получить наилучшие результаты:

AI-описыватель лучше всего работает с фотографиями, карикатурами или другими произведениями искусства. Он также может достаточно хорошо работать с мемами и рекламой. Он не очень хорошо работает с графиками и не является заменой OCR - РАСПОЗНАВАНИЕ текста. Если у вас есть изображение текстового документа, используйте дополнение OCR, а не XPoseImageCaptioner.
AI-описывальщик может рассказать о том, что находится на изображении, но не может рассказать о том, почему оно там находится. Текст ALT все же следует использовать для получения информации о контексте изображения. Например, на новостном сайте вы можете увидеть изображение с текстом ALT "генерал дает показания на слушаниях в Конгрессе о военном бюджете", а подпись ИИ может быть такой: "мужчина в официальной военной форме говорит в микрофон, сидя в комнате, отделанной деревянными панелями". AI-подпись говорит о том, что находится на изображении, а ALT-текст в идеале должен говорить о том, зачем он здесь нужен.
Нейронная сеть BLIP, на которой основан аддон XPoseImageCaptioner, может выдавать только английский текст. Переобучение модели для поддержки других языков, кроме английского, на данный момент не представляется возможным.
Хотя создаваемые подписи в настоящее время очень близки к уровню развития искусственного интеллекта для создания подписей к изображениям, они не всегда точны на 100%. Пожалуйста, используйте их с осторожностью и здравым смыслом и никогда не применяйте вместо OCR. Также не следует полагаться на результаты работы в опасных или рискованных ситуациях.
В настоящее время XPoseImageCaptioner работает для сайтов, не требующих входа в систему. Например, публичные страницы таких организаций, как Guiding Eyes for the Blind или CNN. Страницы, требующие входа в систему, такие как Facebook или Twitter, пока не поддерживаются, поскольку аддон должен самостоятельно загружать изображение с сайта для создания подписи к нему и не может этого сделать, если требуется вход в систему. В качестве запасного варианта можно загрузить любое изображение с сайтов, требующих входа в систему, на локальный компьютер и создать надпись с помощью аддона в File Explorer.
XPoseImageCaptioner работает в FireFox только в том случае, если изображение не имеет ALT-текста. FireFox не предоставляет прямую ссылку на файл изображения для программы чтения с экрана, если изображение имеет ALT-текст. Без этой информации дополнение не может загрузить изображение для создания надписи AI. В Chrome и Microsoft Edge это ограничение отсутствует, и они работают независимо от наличия или отсутствия ALT-текста у изображения.
Для полной поддержки XPoseImageCaptioner в Firefox требуется FireFox версии 116 или более поздней.

Включает нейронную сеть BLIP и вспомогательный код из статьи BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junan Li et al (https://arxiv.org/abs/2201.12086)

Все подробности см. в файле License.txt.

Перевод

Валентин Куприянов: Русский язык

Дополнение можно найти в каталоге https://nvda-addons.ru

Примечание:

Добавил в жестах ввода возможность изменить команду, для этого находим подраздел Описание изображений XPose и ярлык Описать изображение с помощью. Подключил перевод для сообщений и в целом.

При первом запуске будет запущен сервер нейронной сети ИИИ. После того как получите результат, воспользуйтесь любым дополнением для перевода, например, YandexTranslate, InstantTranslate, Translate, BaidooTranslator.

🔝 Назад к оглавлению

История версий

Список версий

🔝 Назад к оглавлению