TesseractOCR (Автономное распознавание текста Tesseract)

Автор: 'Rui Fontes , Ângelo Abrantes and Abel Passos do Nascimento Jr.
Исходный код дополнения: Посетить Web-сайт tesseractOCR

Краткое описание

Дополнение TesseractOCR использует бесплатный OCR-движок Tesseract с открытым исходным кодом для оптического распознавания символов на файле изображения, PDF, JPG, TIF или другом, без необходимости его открытия.
Оно также использует wia-cmd-scanner для доступа к сканерам с поддержкой WIA и выполнения распознавания текста с бумажных документов.
И, наконец, дополнение может извлечь доступный текст из доступного PDF.
По умолчанию используются следующие команды:
Windows+Control+W - сканирование и распознавание документа через сканер.
Windows+Control+R - распознать выбранный документ.
Windows+Control+T - получение текста из доступного PDF.
Windows+Control+C - отмена процесса сканирования.
Все представленные сочетания клавиш можно изменить в диалоге Жесты ввода в разделе Распознавание текста Tesseract.
Распознавание выполняется автономно и не требует подключения к интернету.

⬇ Перейти к подробной справке 🔝 Назад к оглавлению

Основная информация

Название	Версия	Совместимость с API NVDA	Последняя протестированная версия NVDA	Минимальная версия NVDA	Дата загрузки в каталог	Размер	Лицензия
tesseractOCR	2024.11.02	2024.1	2024.4	2019.3	05-11-2024 15:21:54	145476 Кб.	GPL v2

🔝 Назад к оглавлению

Справка

Подробнее

TesseractOCR (Автономное распознавание текста Tesseract)

TesseractOCR: Дополнение для распознавания текста без подключения к интернету.

Авторы: Rui Fontes, Ângelo Abrantes и Abel Passos do Nascimento Jr.
Скачать стабильную версию
Совместимость: NVDA версии 2019.3 и новее
Страница дополнения на GitHub

Информация

Дополнение TesseractOCR использует бесплатный OCR-движок Tesseract с открытым исходным кодом для оптического распознавания символов на файле изображения, PDF, JPG, TIF или другом, без необходимости его открытия. Текстовый файл будет помещен в ту же папку с тем же именем, что и исходный файл, но с расширением .TXT. Оно также использует wia-cmd-scanner для доступа к сканерам с поддержкой WIA и выполнения распознавания текста с бумажных документов. Результаты отображаются в файле с именем OCR.txt, помещенном в папку Документы пользователя. Наконец, с помощью инструментов XPDF можно получить доступный текст из доступного PDF.

В меню NVDA, Параметры, Настройки, добавлен раздел TesseractOCR, в котором можно настроить следующее:

языки, используемые при распознавании;
тип распознаваемых документов;
запрашивать или не запрашивать пароль к PDF. Если эта опция отмечена, а PDF-файл не имеет пароля, то в диалоге с запросом пароля достаточно нажать Enter;
установить разрешение сканера в диапазоне от 150 до 400 DPI (точек на дюйм).
Опция определения ориентации бумаги;
Использовать или не использовать тональные сигналы, сигнализирующие о ходе работы.

За исключением английского и португальского языков, которые уже включены в дополнение, остальные языки будут загружены и установлены при выборе языка, которого еще нет в дополнении.

Обратите внимание, что по мере увеличения числа выбранных языков распознавания процесс распознавания текста будет занимать больше времени. Поэтому мы рекомендуем вам использовать только те языки, которые вам нужны.

Следует также учитывать, что качество распознавания может отличаться в зависимости от порядка следования языков. Поэтому, если результат распознавания окажется неудовлетворительным, можно попробовать использовать другой порядок языков.

Клавиатурные команды

По умолчанию используются следующие команды:

Windows+Control+W - сканирование и распознавание документа через сканер.
Windows+Control+R - распознать выбранный документ.
Windows+Control+T - получение текста из доступного PDF.
Windows+Control+C - отмена процесса сканирования.

Обратите внимание: отмена должна быть произведена до появления диалогового окна с вопросом о необходимости сканирования дополнительных страниц!

Затем просто подождите, пока появится текстовый файл с распознанным текстом.

Если вы хотите сохранить распознанный текст, не забудьте сохранить его в какой-нибудь папке, так как при запуске следующего процесса РАСПОЗНАВАНИЕ текста результаты будут удалены!

Все представленные сочетания клавиш можно изменить в диалоге "Жесты ввода" в разделе "Распознавание текста Tesseract".

Известные проблемы

При выборе опции "Различные" в выпадающем списке "Тип документов" распознанный текст, вероятно, будет содержать много пустых строк Это известная проблема с Tesseract, и, не затрачивая много времени на обработку, я пока не нашел никакого решения. Но я все еще не сдался!

Поддерживаемые языки

(111 языков).

В этой версии поддерживаются следующие языки:

Африканский
Албанский
Амхарский
Арабский
Армянский
Ассамский
Азербайджанский (латинский)
Баскский
Белорусский
Бенгальский
Боснийский
Бретонский
Болгарский
Бернский
Каталонский/валенсийский
Себуано
Чероки
Китайский упрощенный
Китайский традиционный
Корсиканский
Хорватский
Чешский
Датский
Немецкий
Дивехи
Голландский (фламандский)
Дзонгкха
Английский
Эсперанто
Эстонский
Фарерский
Филиппинский
Финский
Французский
Галисийский
Грузинский
Греческий
Гуджарати
Гаитянский
Иврит
Хинди
Венгерский
Исландский
Индонезийский
Инуктитут
Ирландский
Итальянский
Яванский
Японский
Каннада
Казахский
Кхмерский (центральный)
Киргизский
Корейский
Курдский курманджи
Лаосский
Латинский
Латышский
Литовский
Люксембургский
Македонский
Малайский
Малаялам
Мальтийский
Маори
Маратхи
Модуль определения математики / уравнений
Монгольский
Непальский
Норвежский
Окситанский
Ория
Панджаби
Пушту
Персидский
Польский
Португальский
Кечуа
Румынский/молдавский
Русский
Санскрит
Шотландский гэльский
Сербский (латинский)
Словацкий)
Словенский)
Синдхи
Сингальский
Испанский
Сунданский
Суахили
Шведский
Сирийский
Таджикский
Тамильский
Татарский
Телугу
Тайский
Тибетский
Тигринья
Тонга
Турецкий
Уйгурский
Украинский
Урду
Узбекский (латынь)
Вьетнамский
Валлийский
Западно-фризский
Идиш
Йоруба

Поддерживаемые типы изображений

Это дополнение поддерживает следующие типы файлов:

PDF
JPG
TIF
PNG
BMP
PNM
PBM
PGM
JP2
GIF
JFIF
JPEG
TIFF
SPIX
WEBP

Перевод

Русский язык: Валентин Куприянов.

🔝 Назад к оглавлению

История версий

Список версий

🔝 Назад к оглавлению