TesseractOCR (Автономное распознавание текста Tesseract)
Авторы:- Исходный код дополнения: Посетить Web-сайт tesseractOCR
Краткое описание
TesseractOCR — это дополнение для экранного диктора NVDA.
Оно использует бесплатный движок OCR с открытым исходным кодом Tesseract.
Дополнение выполняет оптическое распознавание символов на файле изображения или PDF без необходимости его открывать.
Текстовый файл будет помещён в ту же папку, что и исходный файл, с тем же именем, но с расширением .TXT.
Дополнение также обеспечивает доступ к сканерам с поддержкой WIA для выполнения OCR на бумажном документе.
Результаты отображаются в файле OCR.txt в папке пользователя «Документы».
Дополнение также может извлечь доступный текст из доступного PDF с помощью инструментов XPDF.
В меню NVDA в разделе «Параметры» добавлен раздел TesseractOCR для настройки.
• Можно выбрать языки для распознавания.
• Можно указать тип распознаваемых документов.
• Можно включить запрос пароля для зашифрованных PDF.
• Можно установить разрешение сканера от 150 до 400 DPI.
• Можно включить определение ориентации бумаги.
• Можно включить звуковые сигналы для индикации хода работы.
За исключением английского и португальского, другие языки будут загружены при выборе.
С увеличением количества выбранных языков распознавание будет занимать больше времени.
Качество распознавания может зависеть от порядка языков в списке.
Горячие клавиши по умолчанию:
Windows+Control+w — сканирование и распознавание через сканер.
Windows+Control+r — распознавание выбранного документа.
Windows+Control+t — извлечение текста из доступного PDF.
Windows+Control+c — отмена процесса сканирования.
Все команды можно изменить в диалоговом окне «Жесты ввода».
Основная информация
| Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
|---|---|---|---|---|---|---|---|
| tesseractOCR | 2026.05.24 | 2026.1 | 2026.1 | 2026.1 | 28-05-2026 20:49:53 | 36225 Кб. | GPL v2 |
Информация о локализации на русский язык
🔝 Назад к оглавлениюСкачать
TesseractOCR-V.2026.05.24.nvda-addon
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
TesseractOCR (Автономное распознавание текста Tesseract)
- Авторы: Rui Fontes, Ângelo Abrantes и Abel Passos do Nascimento Jr.
- Совместимость: NVDA версии 2026.1 и выше
Информация
Это дополнение использует бесплатный движок OCR с открытым исходным кодом Tesseract для выполнения оптического распознавания символов на файле изображения, PDF, JPG, TIF или другом, без необходимости его открывать. Текстовый файл будет помещён в ту же папку, что и исходный файл, с тем же именем, но с расширением .TXT. Оно также обеспечивает доступ к сканерам с поддержкой WIA для выполнения OCR на бумажном документе. Результаты отображаются в файле с именем OCR.txt, помещённом в папку пользователя «Документы». Наконец, оно также может извлечь доступный текст из доступного PDF с помощью инструментов XPDF. В меню NVDA, «Параметры», добавлен раздел TesseractOCR, где можно настроить следующее:
- языки, используемые при распознавании;
- тип распознаваемых документов;
- следует ли запрашивать пароль для PDF. Если вы установите этот флажок, а PDF не имеет пароля, просто нажмите Enter в диалоговом окне запроса пароля;
- установить разрешение сканера от 150 до 400 dpi;
- опция для определения ориентации бумаги;
- опция использования звуковых сигналов для индикации хода выполнения работы.
За исключением английского и португальского, которые уже включены в дополнение, другие языки будут загружены и установлены, когда вы выберете язык, которого ещё нет в дополнении. Обратите внимание, что с увеличением количества выбранных языков распознавания процесс OCR будет занимать больше времени. Поэтому мы рекомендуем использовать только те языки, которые вам нужны. Также обратите внимание, что качество распознавания может варьироваться в зависимости от порядка языков. Поэтому, если результат распознавания неудовлетворительный, вы можете попробовать другой порядок языков.
Горячие клавиши
Команды по умолчанию: Windows+Control+w — сканировать и распознать документ через сканер; Windows+Control+r — распознать выбранный документ; Windows+Control+t — извлечь текст из доступного PDF; Windows+Control+c — отменить процесс сканирования. Пожалуйста, обратите внимание: эту команду нужно выполнить до появления диалога с вопросом о сканировании дополнительных страниц!
Затем просто дождитесь появления текстового файла с распознанным текстом.
Эти команды можно изменить в диалоговом окне «Жесты ввода» в разделе «TesseractOCR».
Известные проблемы
- При выборе варианта «Разное» в поле со списком «Тип документа» распознанный текст, скорее всего, будет содержать множество пустых строк. Это известная проблема Tesseract, и без затрат большого количества времени обработки я пока не нашёл решения. Но я ещё не сдался!
Поддерживаемые языки
Поддерживаемые языки в этой версии:
- Африкаанс
- Албанский
- Амхарский
- Арабский
- Армянский
- Ассамский
- Азербайджанский (латиница)
- Баскский
- Белорусский
- Бенгальский
- Боснийский
- Бретонский
- Болгарский
- Бирманский
- Каталанский/Валенсийский
- Себуанский
- Чероки
- Китайский (упрощённый)
- Китайский (традиционный)
- Корсиканский
- Хорватский
- Чешский
- Датский
- Немецкий
- Дивехи
- Нидерландский (Фламандский)
- Дзонг-кэ
- Английский
- Эсперанто
- Эстонский
- Фарерский
- Филиппинский
- Финский
- Французский
- Галисийский
- Грузинский
- Греческий
- Гуджарати
- Гаитянский креольский
- Иврит
- Хинди
- Венгерский
- Исландский
- Индонезийский
- Инуктитут
- Ирландский
- Итальянский
- Яванский
- Японский
- Каннада
- Казахский
- Кхмерский (центральный)
- Киргизский
- Корейский
- Курдский (курманджи)
- Лаосский
- Латинский
- Латышский
- Литовский
- Люксембургский
- Македонский
- Малайский
- Малаялам
- Мальтийский
- Маори
- Маратхи
- Модуль распознавания математических выражений / уравнений
- Монгольский
- Непальский
- Норвежский
- Окситанский
- Ория
- Панджаби
- Пушту
- Персидский
- Польский
- Португальский
- Кечуа
- Румынский/Молдавский
- Русский
- Санскрит
- Шотландский гэльский
- Сербский (латиница)
- Словацкий
- Словенский
- Синдхи
- Сингальский
- Испанский
- Сунданский
- Суахили
- Шведский
- Сирийский
- Таджикский
- Тамильский
- Татарский
- Телугу
- Тайский
- Тибетский
- Тигринья
- Тонга
- Турецкий
- Уйгурский
- Украинский
- Урду
- Узбекский (латиница)
- Вьетнамский
- Валлийский
- Западнофризский
- Идиш
- Йоруба
Поддерживаемые типы изображений
Это дополнение поддерживает следующие типы файлов:
- jpg
- tif
- png
- bmp
- pnm
- pbm
- pgm
- jp2
- gif
- jfif
- jpeg
- tiff
- spix
- webp