XPoseImageCaptioner (EI-описание изображений XPose)
- Автор: Christopher Millsap
- Исходный код дополнения: Посетить Web-сайт XPoseImage Captioner
Краткое описание
Дополнение XPoseImageCaptioner позволяет создавать AI описание к изображениям JPEG и PNG из проводника файлов Windows, Microsoft Edge, Google Chrome и Firefox.
Оно делает все выводы на локальной машине пользователя, а не полагается на удаленный сервер для создания описания к изображению.
Для использования сначала выберите изображение с помощью навигационного курсора, затем нажмите сочетание клавиш NVDA+x, чтобы запустить дополнение.
Дополнение выдаст сообщение «Описываю, пожалуйста, подождите», пока искусственный интеллект будет создавать подписи к изображению.
Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашей машины. После того как ИИ завершит создание надписи, откроется окно, в котором будет показан текст описания, и текст описания будет прочитан. Окно с надписью можно закрыть, нажав Escape.
Для создания описаний используется Локальная нейронная сеть BLIP.
Работает без подключения к интернету. Описание предоставляется на английском языке.
Примечание: В локализованной версии можно изменить сочетание клавиш в жестах ввода, в разделе Описание изображений XPose, Описать изображение с помощью.
Основная информация
Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
---|---|---|---|---|---|---|---|
XPoseImage Captioner | 0.8.9 | 2024.1 | 2024.1 | 2022.1 | 30-09-2024 18:56:37 | 195176 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
XPoseImageCaptioner-V.0.8.9.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
XPoseImageCaptioner (EI-описание изображений XPose)
Обзор:
Дополнение XPoseImageCaptioner позволяет создавать AI описание к изображениям JPEG и PNG из проводника файлов Windows, Microsoft Edge, Google Chrome и Firefox. Оно делает все выводы на локальной машине пользователя, а не полагается на удаленный сервер для создания описания к изображению. Для использования сначала выберите изображение с помощью навигационного курсора, затем нажмите сочетание клавиш NVDA+x, чтобы запустить дополнение. Дополнение выдаст сообщение «Описываю, пожалуйста, подождите», пока искусственный интеллект будет создавать подписи к изображению. Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашей машины. После того как ИИ завершит создание надписи, откроется окно, в котором будет показан текст описания, и текст описания будет прочитан. Окно с надписью можно закрыть, нажав Escape.
Получение максимальной отдачи от XPoseImage Captioner
При использовании XPoseImageCaptioner необходимо учитывать несколько моментов, чтобы получить наилучшие результаты:
- AI-описыватель лучше всего работает с фотографиями, карикатурами или другими произведениями искусства. Он также может достаточно хорошо работать с мемами и рекламой. Он не очень хорошо работает с графиками и не является заменой OCR - РАСПОЗНАВАНИЕ текста. Если у вас есть изображение текстового документа, используйте дополнение OCR, а не XPoseImageCaptioner.
- AI-описывальщик может рассказать о том, что находится на изображении, но не может рассказать о том, почему оно там находится. Текст ALT все же следует использовать для получения информации о контексте изображения. Например, на новостном сайте вы можете увидеть изображение с текстом ALT "генерал дает показания на слушаниях в Конгрессе о военном бюджете", а подпись ИИ может быть такой: "мужчина в официальной военной форме говорит в микрофон, сидя в комнате, отделанной деревянными панелями". AI-подпись говорит о том, что находится на изображении, а ALT-текст в идеале должен говорить о том, зачем он здесь нужен.
- Нейронная сеть BLIP, на которой основан аддон XPoseImageCaptioner, может выдавать только английский текст. Переобучение модели для поддержки других языков, кроме английского, на данный момент не представляется возможным.
- Хотя создаваемые подписи в настоящее время очень близки к уровню развития искусственного интеллекта для создания подписей к изображениям, они не всегда точны на 100%. Пожалуйста, используйте их с осторожностью и здравым смыслом и никогда не применяйте вместо OCR. Также не следует полагаться на результаты работы в опасных или рискованных ситуациях.
- В настоящее время XPoseImageCaptioner работает для сайтов, не требующих входа в систему. Например, публичные страницы таких организаций, как Guiding Eyes for the Blind или CNN. Страницы, требующие входа в систему, такие как Facebook или Twitter, пока не поддерживаются, поскольку аддон должен самостоятельно загружать изображение с сайта для создания подписи к нему и не может этого сделать, если требуется вход в систему. В качестве запасного варианта можно загрузить любое изображение с сайтов, требующих входа в систему, на локальный компьютер и создать надпись с помощью аддона в File Explorer.
- XPoseImageCaptioner работает в FireFox только в том случае, если изображение не имеет ALT-текста. FireFox не предоставляет прямую ссылку на файл изображения для программы чтения с экрана, если изображение имеет ALT-текст. Без этой информации дополнение не может загрузить изображение для создания надписи AI. В Chrome и Microsoft Edge это ограничение отсутствует, и они работают независимо от наличия или отсутствия ALT-текста у изображения.
- Для полной поддержки XPoseImageCaptioner в Firefox требуется FireFox версии 116 или более поздней.
Включает нейронную сеть BLIP и вспомогательный код из статьи BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junan Li et al (https://arxiv.org/abs/2201.12086)
XPoseImageCaptioner © 2023 Кристофер Миллсап, Все права защищены. Распространяется на условиях BSD 3 Clause License. Этот аддон не связан с компанией Salesforce.com и не поддерживается ею.
Использует нейронную сеть BLIP и вспомогательный код. © 2023 SalesForce.com, Все права защищены. Распространяется на условиях BSD 3 Clause License.
Все подробности см. в файле License.txt.
Перевод
Дополнение можно найти в каталоге https://nvda-addons.ru
Примечание:
Добавил в жестах ввода возможность изменить команду, для этого находим подраздел Описание изображений XPose и ярлык Описать изображение с помощью. Подключил перевод для сообщений и в целом.
При первом запуске будет запущен сервер нейронной сети ИИИ. После того как получите результат, воспользуйтесь любым дополнением для перевода, например, YandexTranslate, InstantTranslate, Translate, BaidooTranslator.