OnlineOCR (Онлайн-описатель изображений)

Автор: 'Larry Wang
Исходный код дополнения: Посетить Web-сайт onlineOCR

Краткое описание

Дополнение OnlineOCR направлено на добавление в NVDA онлайн-движков распознавания изображений.
Существует два типа движков.
Распознавание текста и средство описания изображений.
Распознавание текста извлекает текст из изображения.
Средство описания изображений описывает визуальные особенности изображения в текстовой форме.
Например, общее описание, ориентиры цветового типа и так далее.
Для использования этого дополнения требуется подключение к Интернету, поскольку сервисы описания изображений предоставляются конечными точками API в Интернете.
В этом дополнении они называются движками.
Для этого дополнения существует три типа движков.

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название	Версия	Совместимость с API NVDA	Последняя протестированная версия NVDA	Минимальная версия NVDA	Дата загрузки в каталог	Размер	Лицензия
onlineOCR	0.23	2023.1	2023.1	2018.4	27-12-2023 23:55:57	2537 Кб.	GPL v2

🔝 Назад к оглавлению

Справка

Подробнее

Дополнение для онлайн-описания изображений

Автор: Ларри Ванг
Совместимость с NVDA: с 2018.3 по 2021.1
Скачать версию разработки

Это дополнение предназначено для добавления онлайн-механизмов распознавания изображений в NVDA. Существует два типа двигателей. Распознавание и описатель изображений. Распознавание текста извлекает текст из изображения. Описатель изображений описывает визуальные особенности изображения в текстовой форме. Например, общее описание, ориентиры цветового типа и так далее. Для использования этого дополнения требуется подключение к Интернету, так как предоставляются услуги описания изображений конечными точками API в Интернете. В этом дополнении они называются двигателями (механизмами). Для этого аддона существует три типа движка.

Онлайн-распознаватель
Механизм онлайн-описания изображений
Механизм распознавания текста Windows 10 (в автономном режиме)

Вам также необходимо выбрать источник распознавания изображения.

Текущий объект навигатора
Текущее окно переднего плана
Весь экран
Данные изображения или файл из буфера обмена
Путь к файлу изображения или URL-адрес изображения из буфера обмена

Клавиатурные команды

После выбора этих типов вы можете начать распознавание одним жестом. NVDA+Alt+P Выполняют распознавание в соответствии с настройками источника и типа двигателя, затем считывают результат. При двойном нажатии откроется виртуальный документ результатов.

Есть четыре дополнительных жеста, которые остались неназначенными. Пожалуйста, назначьте их перед использованием. Пройдите цикл через различные типы механизмов распознавания. пройдите цикл через различные типы источников распознавания. Отменить текущее распознавание Этот жест может быть полезен, если вы считаете, что ждали слишком долго, и хотите отменить. Также иногда вы не хотите быть беспокоит сообщение о распознавании, потому что вам нужно просмотреть некоторые сообщения, поступившие после начала распознавания.

Показать предыдущий результат в виртуальном документе результатов. Хотя есть функция копирования результата в буфер обмена. Информация о положении персонажа не может быть сохранена, поэтому этот жест добавлен для решения этой проблемы.

Есть также четыре старых жеста, которые остаются неназначенными для пользователей, предпочитающих жесты в предыдущих версиях. Рекомендуется использовать новый жест и переключать тип двигателя в соответствии с вашими потребностями.

Распознайте текущий объект навигатора с помощью онлайн-распознавателя, а затем считайте результат. При двойном нажатии откроется виртуальный документ результатов.

Распознает изображение в буфере обмена с помощью онлайн-распознавателя. Затем прочитайте результат. При двойном нажатии откроется виртуальный документ результатов.

Распознать текущий объект навигатора, а затем прочитать результат. При двойном нажатии откроется виртуальный документ результатов.

Распознает изображение в буфере обмена. Затем прочитайте результат. При двойном нажатии откроется виртуальный документ результатов.

Конфигурация двигателя

Вы можете выбрать распознавание двигатели и настройте их подробно в категории Онлайн-описатель изображений в диалоговом окне настроек NVDA.

Автор аддона зарегистрировал учетную запись с бесплатной квотой API и настроил прокси-сервер на www.nvdacn.com чтобы сделать этот аддон проще для тестирования на первом этапе. Тестовая квота ограничена и может быть отменена поставщиком API в любое время. Настоятельно рекомендуется зарегистрировать свой собственный ключ в соответствии с руководством в каждом двигателе.

Следующие настройки применимы ко всем двигателям.

Скопируйте результат распознавания в буфер обмена:

Если включено, текст результата распознавания будет скопирован в буфер обмена после распознавания.

Используйте просматриваемое сообщение для текстового результата Если включено, текст результата распознавания будет отображаться во всплывающем окне вместо речи или сообщения Брайля.
Замените эффект повторяющегося жеста на отсутствие повторяющихся: По умолчанию виртуальный документ результата отображается только в том случае, если вы дважды нажмете соответствующий жест, если вы используете это часто, вы можете включить эту опцию, чтобы вам нужно было нажать только один раз, чтобы получить средство просмотра результатов.
Включить более подробное ведение журнала для целей отладки: Некоторые журналы необходимы для отладки, но влияют на производительность и занимают много места. Включите эту функцию только по специальному указанию автора дополнения или разработчика NVDA.
Тип прокси-сервера: Какой тип прокси вы используете. Если вы не знаете, что такое прокси-сервер, просто оставьте его как есть.
Адрес прокси-сервера: Полный URL-адрес вашего прокси-сервера. Если вы не знаете, что такое прокси-сервер, просто оставьте его как есть. Если вы решите использовать прокси-сервер, ваш прокси-сервер будет проверен перед сохранением , после проверки появится приглашение сообщить вам результат. Следующие настройки означают одно и то же во всех движках, опишите их здесь, чтобы сэкономить место.
Тип доступа к API: Это определяет, как вы получаете доступ к соответствующим конечным точкам API. Если вы выберете "Использовать общедоступную квоту", вы используете бесплатную квоту в учетной записи, зарегистрированной автором дополнения. Если вы выберете "Использовать свой собственный ключ API", этот аддон будет использовать квоту из вашей собственной учетной записи.
Идентификатор ПРИЛОЖЕНИЯ, ключ API или секретный ключ API: Если вы хотите использовать квоту из вашего требуется собственный аккаунт, соответствующий токенам доступа. Некоторым двигателям нужен только ключ API. Для некоторых движков требуется два токена. Они действительны только в том случае, если вы выберете "использовать свой собственный ключ API" в типе доступа к API.

Обратите внимание, что на качество и точность результатов влияют многие факторы.

Модели и методы, используемые поставщиком двигателей
Качество загруженного изображения
Является ли объект навигатора скрытым за чем-то другим
Разрешение экрана

Описание онлайн-изображения

Вот три доступных двигателя.

Корпорация Майкрософт

Анализатор изображений Azure

Этот движок извлекает богатый набор визуальных функций на основе содержимого изображения. Этот движок только на английском языке. Если вам нужно описание на других языках, вы можете использовать описатель образов Microsoft Azure

Визуальные функции включают в себя: Взрослый - определяет, является ли изображение порнографическим по своей природе (изображает наготу или половой акт). Также обнаруживается содержание сексуального подтекста. Бренды - определяет различные бренды на изображении, включая приблизительное местоположение. Аргумент "Бренды" доступен только на Английском. Категории - классифицирует содержимое изображений в соответствии с таксономией, определенной в документации. Цвет - определяет цвет акцента, доминирующий цвет и является ли изображение черно-белым. Описание - описывает содержимое изображения с полным предложением на поддерживаемых языках. Лица - определяет, присутствуют ли лица. Если есть, сгенерируйте координаты, пол и возраст. Тип изображения - определяет, является ли изображение клипом или линейным рисунком. Объекты - обнаруживает различные объекты на изображении, включая приблизительные местоположение. Аргумент Objects доступен только на английском языке. Теги - помечает изображение подробным списком слов, относящихся к содержимому изображения.

Некоторые функции также предоставляют дополнительные сведения:

Знаменитости - идентифицирует знаменитостей, если они обнаружены на изображении. Ориентиры - определяет ориентиры, если они обнаружены на изображении.

Описатель образов Microsoft Azure

Этот движок генерирует описание изображения на удобочитаемом языке с полными предложениями. Описание основано на коллекции контента теги, которые также возвращаются операцией. Для каждого изображения может быть создано более одного описания. Описания упорядочены по их показателю уверенности. Для этого движка есть две настройки.

Язык Язык, на котором служба будет возвращать описание изображения. Английский по умолчанию.
Максимальное количество Кандидатов Максимальное количество возвращаемых описаний кандидатов. Значение по умолчанию равно 1.

Онлайн РАСПОЗНАВАНИЕ текста

Онлайн-движки полагаются на использование и наличие следующих сервисов.

https://www.nvdacn.com

https://ocr.space/ocrapi

https://azure.microsoft.com/en-us/services/cognitive-services/

http://ai.qq.com

http://ai.baidu.com

http://ai.sogou.com/

https://intl.cloud.tencent.com

Двигатели

В наличии имеется пять двигателей.

Распознавание в облаке Tencent

Этот API спонсируется Tencent Cloud и [Ассоциация исследований доступности Ace] (http://www.siaa.org.cn), с квотой 15000 в день.

Этот движок поддерживает 19 языков.

Китайско-английский микс Японский Корейский Испанский

Французский Немецкий Португальский Вьетнамский Малайский Русский Итальянский Голландский Шведский Финский Датский Норвежский язык Венгерский Тайский Латинский

Вот настройки этого движка.

Язык: Язык текста для распознавания. Автоматическое обнаружение по умолчанию.

Распознавание пространства

Это платный API с бесплатной квотой, предоставляемой https://ocr.space Он поддерживает 24 языка, включая Арабский язык Болгарский Китайский (упрощенный) Китайский (традиционный) Хорватский Чешский Датский Голландский Английский Финский Французский Немецкий Греческий Венгерский Корейский Итальянский

Японский Польский Португальский Русский Словенский Испанский Шведский Турецкий

Вот настройки для этого движка:

Язык: Язык текста для распознавания. Английский по умолчанию.

Определение ориентации изображения: Если установлено значение true, API автоматически поворачивает изображение правильно.

Масштабирование изображения для лучшего качества Если установлено значение true, API выполняет некоторое внутреннее масштабирование. Это может значительно улучшить результат распознавания, особенно при сканировании PDF с низким разрешением.

Оптимизация для распознавания таблиц Если установлено значение true, логика распознавания делает убедитесь, что результат анализа текста всегда возвращается строка за строкой. Этот переключатель рекомендуется для распознавания таблиц, распознавания квитанций, обработки счетов-фактур и всех других типов входных документов, имеющих структуру, подобную таблице.

Если вы хотите использовать свой собственный ключ, вам также необходимо указать ключ API.

Вы можете получить свой собственный бесплатный ключ API, зарегистрировавшись на [Пространство распознавания] (https://ocr.space/ocrapi) Вот простое руководство. Найдите ссылку "Зарегистрироваться для получения бесплатного ключа API" Нажмите на нее, и вы найдете форму для заполнения. Форма просит вас для ввода следующих данных адрес электронной почты имя фамилия Как вы планируете использовать API распознавания текста? После заполнения его и отправляйте. Вам также может потребоваться передать капчу Затем вы получите подтверждение по электронной почте Найдите ссылку с названием "Да, подпишитесь на меня в этом списке". в этом электронном письме. Перейдите по этой ссылке, и вскоре вы получите ключ API по электронной почте.

Распознавание текста Microsoft Azure

Этот механизм использует API распознавания текста в компьютерном зрении Microsoft Azure Cognitive Services.

Он поддерживает 24 языка, включая Упрощенный китайский

Китайская Традиционная Чешский Датский Голландский Английский Финский Французский Немецкий Греческий Венгерский Итальянский Японский Корейский Норвежский язык Польский Португальский Русский Испанский Шведский Турецкий Арабский язык Румынский Сербская кириллица Сербская латынь Словацкий

Вот настройки для этого движка:

Язык: Язык текста для распознавания. Автоматическое обнаружение по умолчанию.

Если вы используете свой собственный ключ, вы должны получить ключ подписки для использования компьютера Microsoft API видения по ссылке ниже: Шаг 1: Создайте учетную запись.

https://azure.microsoft.com/en-ua/try/cognitive-services/

Пожалуйста, обратите внимание, что ключ должен быть создан для API компьютерного зрения. Первая кнопка "ПОЛУЧИТЬ ключ API", с которой вы сталкиваетесь при навигации по одной клавише. В настоящее время корпорация Майкрософт предоставляет возможность создать пробный ключ на 7 дней. Вы также можете зарегистрироваться в бесплатной учетной записи Azure для получения дополнительной информации. Для регистрации требуется кредитная карта. Если у вас уже есть учетная запись подписки, вы можете пропустить этот шаг.

Шаг 2. Развертывание Когнитивных служб Теперь у вас есть учетная запись azure. Первый вход в систему на Портале Azure Подождите, пока портал сообщений не будет готов. Вы вошли на портал azure. Найдите ссылку под названием "Все ресурсы после всех услуг " и активируйте ее. Подождите, пока вы не получите сообщение "Все ресурсы готовы", ваше внимание будет сосредоточено на окне редактирования, затем нажмите клавишу shift, найдите пункт меню "Добавить" и активируйте его.

Подождите, пока вы не получите сообщение, Поищите на рынке, Тип Когнитивные сервисы и нажмите стрелку вниз. Подождите, пока вы не получите сообщение со списком опций Cognitive Services, одним из пяти, затем нажмите enter. Подождите, пока вы не получите сообщение, что Когнитивные службы готовы, нажмите вкладку или b, чтобы найти кнопку с именем Создать, активируйте ее. Подождите, пока вы не получите сообщение, что создание блейда готово, ваше внимание будет сосредоточено на поле редактирования, введите имя для этого ресурса. Обратите внимание, что имя вашего ресурса может содержать только буквенно-цифровые символы ",-" и не может заканчиваться на "" или "-". Я выбираю NVDA_OCR.

Нажмите вкладку, чтобы перейти в поле со списком Подписка. Обычно вы можете оставить все как есть. Нажмите клавишу tab, чтобы перейти в поле со списком Местоположение. Выберите один из них рядом с вашим текущим местоположением. Обязательно запомните это, так как расположение требуется в конфигурации двигателя. Нажмите вкладку, чтобы перейти в поле со списком "Ценовая привязка". Обычно достаточно свободной связи, такой как F0. Если этого недостаточно, вы можете выбрать другой уровень, прочитав полную информацию о ценах в разделе Просмотр полной информации о ценах. Нажмите вкладку, чтобы перейти к окну редактирования создания новой группы ресурсов. Вы должны создайте его, если у вас нет никакой группы ресурсов. Нажмите кнопку tab найти Создать новую. Затем нажмите вкладку перейти к кнопке Создать, чтобы создать этот ресурс. Подождите, пока не получите сообщение об успешном развертывании. Затем найдите кнопку Перейти к ресурсу иногда вам нужно подняться, чтобы активировать кнопку уведомлений, прежде чем вы сможете найти кнопку Перейти к ресурсу. Подождите, пока вы не получите сообщение "Быстрый запуск" занят. Найдите ссылку с именем ключи, затем активируйте ее. Подождите, пока не получите сообщение, что ключи управления блейдом готовы. Найти редактировать поле с именем ключ 1 или ключ 2. Содержимое этого поля редактирования является ключом API, необходимым для настройки движка. Нажмите Ctrl-C, чтобы скопировать его для настройки двигателя Затем вы можете заполнить эти два параметра, необходимые, если вы используете свой собственный ключ API. Регион ресурсов Azure: Регион, который вы выбираете при развертывании когнитивных служб на портале Azure. Ключ API: Рекомендуется использовать ключ 2, который вы получите после успешного развертывания когнитивных служб на портале Azure.

Распознавание Байду

Это также платный API с предоставленной бесплатной квотой Байду. Распознавание текста Baidu поддерживает 10 языков, включая Смесь китайского и английского языков Английский Португальский Французский Немецкий Итальянский Испанский Русский Японский Корейский Этот движок также может получить позицию каждого персонажа

Вот его настройки:

Получить положение каждого символа позволяет выполнять более точные операции с некоторыми недоступными приложениями. Включение этой функции немного замедлит распознавание.

Используйте точный API Если включено, будет использоваться другая конечная точка. Эта точная конечная точка занимает больше времени, но имеет более высокое качество и (если вы используете свой собственный ключ API, его цена также выше).

Он имеет четыре конечные точки с отдельным лимитом квот.

Базовое распознавание текста без какой-либо информации о расположении текста. В настоящее время 50000 раз в день. Базовое распознавание текста с информацией о расположении текста. В настоящее время 500 раз в день. Точное распознавание текста без какой-либо информации о расположении текста. В настоящее время 500 раз в день. Точный с информацией о местоположении текста. В настоящее время 50 раз в день.

Если вы нажмете жест, который только считывает результат, вы использование конечных точек без какой-либо информации о расположении текста. Если вы нажмете жест, который показывает средство просмотра результатов, вы используете конечные точки с информацией о расположении текста.

Хотя он предоставляет довольно щедрую бесплатную квоту, его веб-сайт только на китайском языке и не совсем доступен.

Распознавание Tencent AI

Этот API можно использовать бесплатно с ограничением частоты около двух запросов в секунду.
Если вы хотите обойти ограничение, вы можете зарегистрировать свой собственный ключ API. Веб-сайт этого API только на китайском языке и не совсем доступен.

В документе нет информации о языковой поддержке. Согласно моему тесту поддерживаются китайский и английский языки и их смесь.
Для этого API нет дополнительной конфигурации.

Перевод

NVDA.RU на русский язык](https://nvda.ru)

Журнал изменений

0.19

Добавьте механизм распознавания Tencent Cloud, спонсируемый Tencent Cloud и [Ассоциация исследований доступности Ace] (http://www.siaa.org.cn) Совместимость с NVDA 2020.2 Удалено недоступное распознавание текста Sougou и движок машинного обучения Оливера Эдхолма Исправить общедоступную конечную точку на NVDA Сайт в Китае

0.18

Совместимость с python3 Представьте концепцию типа источника распознавания и типа механизма, чтобы уменьшить использование жестов. Добавьте новый неназначенный жест, чтобы переключаться между различными типами источников распознавания. Добавьте новый неназначенный жест, чтобы переключаться между различными типами механизмов распознавания. Добавьте новый жест для распознавания в соответствии с источником изображения и настройками типа движка. Добавьте новый неназначенный жест, чтобы отобразить предыдущий результат в виртуальном документе результатов.

0.17

Исправлены следующие проблемы: Переход непосредственно к панели при переключении на onlineImageDescriber в диалоговом окне настроек Исправлено неправильное описание в анализаторе azure

0.16

Добавьте жест отмены распознавания

Исправлены следующие проблемы: Изменение состояния контрольного списка не объявлено Поменять местами эффект повторяющегося жеста, не работающего в онлайн-описателе изображений

0.15

Добавьте опцию, чтобы всплывающее окно, содержащее сообщение, вместо речи или сообщения Брайля для текстовых результатов Установите флажки для визуальных функций в Microsoft Azure Анализатор изображений в список флажков.

Устраните следующие проблемы: Не удается загрузить файл изображения jpg из буфера обмена Объект документа результата не отображается после распознавания. Положение объектов в результирующем документе ненадежно, если изображение изменено внутренне. Результат описания изображений Microsoft Azure находится в той же строке, что затрудняет навигацию.

0.14

Исправлены некоторые ошибки: Не удается использовать собственный ключ API в движках Microsoft Azure Невозможно получить текстовый результат при наличии дисплея Брайля

0.13

Убедиться что надстройка работает при перезагрузке подключаемых модулей без перезагрузки (NVDA+Control+F3)

0.12

Исправлено сообщение о режиме просмотра описателя изображений Microsoft Azure Цвет акцента теперь представлен в виде цветовых описаний NVDA. Улучшенный формат результатов анализатора изображений Microsoft Azure Улучшить документ в соответствии с комментариями к обзору Исправлена несогласованность жестов. Управление+Сдвиг+NVDA для буфера обмена, в то время как NVDA+ALT для объекта навигатора Исправлена ошибка ImageInfo при распознавании.

0.11

Добавлено описание изображения способность Измените сводку дополнений на онлайн-описатель изображений

0.10

Исправлена ошибка с использованием собственного ключа API пользователя в sougou API. Устраните проблему с неизвестной панелью, добавив настройки в поддерживаемые настройки

0.9

Исправлена ошибка с двойным нажатием без эффекта. Пересмотренный документ, отражающий изменения в коде. Уточнил, какой тип изображения буфера обмена поддерживается и как скопировать изображение для распознавания.

Исправлена ошибка, из-за которой распознавание буфера обмена не могло открыть средство просмотра результатов. Добавлена поддержка распознавания скопированного локального пути к файлу изображения в буфере обмена.

0.8

Добавлено дружественное уведомление, если результат распознавания пустой. Исправлено другое место, которое плохо работает с конфигурационным путем, отличным от ascii

0.6

Добавлены настройки прокси-сервера для людей, имеющих доступ в Интернет за определенным прокси-сервером. Добавлено несколько общих опций. Исправлена ошибка декодирования Юникода из-за отправки URL-адреса Юникода в urllib3.

0.5

Исправлена ошибка Unicode, если механизм распознавания загружал файл изображения напрямую вместо кодирования base64. Измените жест распознавания буфера обмена на Управление+Shift+NVDA+R , так как NVDA+Shift+R используется в Word и Excel для определения заголовков строк в таблицах или для удаления определений при двойном нажатии.

0.4

Исправлена ошибка установки, когда путь конфигурации содержит символы, отличные от ascii Измените жест, чтобы избежать столкновения с золотым курсором. Измените механизм по умолчанию на Microsoft azure, поскольку он может автоматически определять язык текста.

0.3

Добавьте подробную документацию о том, как получить ключ API распознавания Microsoft Azure Устранена проблема с новой установкой. Удалено автоматическое распознавание текста, так как эта функция проблематична и может сбить с толку с онлайн-движками. Автоматическое распознавание будет отдельным дополнением, когда оно будет достаточно стабильным.

Официальный русскоязычный каталог дополнений NVDA