RuTTS (Синтезатор речи)
- Автор: 'Speech Research Laboratory (Minsk), Igor Poretsky
, Boris Lobanov , Alexander Ivanov - Исходный код дополнения: Посетить Web-сайт ru_tts
Краткое описание
Дополнение RuTTS — это русскоязычный синтезатор речи для программы экранного доступа NVDA, созданный на базе свободного голосового движка Ru_tts.
Движок ru_tts является альтернативной реализацией программного синтезатора речи «Фонемафон-5» начала 1990-х годов, и характеризуется компактностью, высокой скоростью отклика и повышенной чёткостью речи.
Основная информация
Название | Версия | Совместимость с API NVDA | Последняя протестированная версия NVDA | Минимальная версия NVDA | Дата загрузки в каталог | Размер | Лицензия |
---|---|---|---|---|---|---|---|
ru_tts | 2025.06.21 | 2025.1 | 2025.1 | 2019.3 | 21-06-2025 19:22:43 | 1642 Кб. | GPL v2 |
Информация о локализации на русский язык
- Локализация от: Разработчик или другой переводчик
- Перевод: Да
- Перевод интерфейса: Да
- Перевод справки: Да
Скачать
⬇ Перейти к истории версий 🔝 Назад к оглавлениюРазделы
🔝 Назад к оглавлениюСправка
Подробнее
RU_TTS for NVDA
RU_TTS for NVDA — это русскоязычный синтезатор речи для программы экранного доступа NVDA, созданный на базе свободного голосового движка ru_tts. Движок ru_tts является альтернативной реализацией программного синтезатора речи «Фонемафон-5» начала 1990-х годов и характеризуется компактностью, высокой скоростью отклика и повышенной чёткостью речи.
История создания
Источник: http://www.tiflocomp.ru/news/1784
История синтезаторов речи серии «Фонемафон» отсчитывается с начала семидесятых годов и на протяжении всего этого времени связано с именем Бориса Лобанова, руководившего данными разработками. Однако ещё в 1959 году, проходя срочную службу в рядах Советской армии в должности старшего радиомастера, Борис Лобанов, имея достаточную специальную подготовку и хорошо оборудованную приборами радиомастерскую, задался вопросом: „А как же устроена естественная речевая связь между людьми?“ Параллельно с изучением звуков речи с помощью микрофона и осциллографа он проводил свои увольнительные в Петрозаводской библиотеке, вступил в переписку с известным учёным, профессором Людмилой Чистович, и получил от неё ряд ценных советов по проведению исследований речи. Сохранилась документальная запись в дневнике Лобанова, датированная 25 октября 1959 года: „Фонемофон ведёт к фонемографу“. После окончания службы в армии в 1961 году Борис Лобанов поступил в институт и продолжил заниматься научными исследованиями в области анализа речевых сигналов для систем распознавания и синтеза речи. В 1966 году им была организована хозрасчётная научная лаборатория анализа и синтеза речевых сигналов при кафедре радиоприёмных устройств Минского радиотехнического института. После защиты диссертации в 1968 году Борис Лобанов был направлен на научную стажировку в Великобританию в 1969-1970 годах, где под руководством профессора Эдинбургского университета Р. Лоренца им были проведены успешные эксперименты по синтезу звуков русской речи, позволившие заложить основы формантного синтеза речи по фонемному тексту. В результате уже в 1971 году под руководством Бориса Лобанова было создано автономное устройство с ручным вводом текста, базировавшееся на фонемно-формантном методе синтеза речи и считающееся первым поколением — «Фонемафон-1». Устройство являлось одним из первых синтезаторов русской речи, и оно было отмечено двумя медалями ВДНХ СССР. Усовершенствованная версия данного устройства, ставшее вторым поколением синтезатора, — «Фонемафон-2», в которой были оптимизированы характеристики формантных фильтров, а ввод текста осуществлялся с перфоленты, появилась в 1975 году. В 1979 году на международной выставке Telecom-79 в Женеве было продемонстрировано третье поколение устройства — «Фонемафон-3», где использовался уже фонемно- артикуляторно-формантный метод синтеза речи. Ввод текста в него был возможен как с ЭВМ, так и вручную с клавиатуры. Устройство также могло подключаться к телефонной линии. К этому моменту синтезатор демонстрировал способность разговаривать не только на русском, но также на английском, французском и немецком языках, хотя и с сильным русским акцентом, так как синтез речи происходил на основе русских фонем. В восьмидесятых годах началось активное внедрение подсистем синтеза речи серии «Фонемафон» в различные промышленные системы. В частности, в 1984 году появилось первое в СССР промышленное устройство распознавания и синтеза речи — «Марс-1», выпускавшееся серийно ПО «Кварц» в Калининграде под руководством конструктора Валерия Афанасьева. На базе речевого терминала «Марс-1» была разработана система автоматического информирования абонентов междугородной телефонной сети (АИАМТС) о задолженности за переговоры. Система АИАМТС была успешно внедрена и длительное время эксплуатировалась в ряде крупных городов: Минске, Новосибирске, Алма- Ате, Фрунзе, Петропавловске-Камчатском. Ещё одна разработка — система контроля за параметрами аппаратуры телефонных и радиостанций с оперативным оповещением дежурного персонала о возникших неполадках — была внедрена на Минской, Московской и Зеленоградской АТС, а также на Белорусской республиканской радиоретрансляционной станции РТС-5. В 1986 году, в сотрудничестве с профессором кафедры фонетики Минского лингвистического университета Еленой Карневской, была разработана англоязычная версия синтезатора речи, демонстрировавшаяся на Всемирном конгрессе фонетических наук 1987 года. К этому моменту четвёртое поколение устройства — «Фонемафон-4» — использовало фонемно-аллофонно-формантный метод синтеза речи и в добавок к мужскому, получило и женский голос. На протяжении семидесятых и восьмидесятых годов в «Фонемафонах» использовались различные вариации формантного метода синтеза речи, а сами они воплощались в виде автономных устройств. Однако в конце восьмидесятых годов Борисом Лобановым был предложен новый фонемно- микроволновый метод синтеза речи, в котором вместо вычислений формантных колебаний использовался подготовленный заранее набор микроволн естественного речевого сигнала. Данный подход под руководством Бориса Лобанова в 1990 году реализовал инженер лаборатории распознавания и синтеза речи ИТК АН БССР Александр Иванов в виде программного обеспечения для персональных компьютеров класса ЕС-1840 и IBM PC/XT. Начиная с этого пятого поколения «Фонемафон-5», для работы с синтезатором было достаточно иметь IBM-совместимый компьютер с тактовой частотой не ниже 10 мегагерц и оперативной памятью не менее 640 килобайт, а также операционную систему MS-DOS 3.30. Синтезатор мог разговаривать на русском языке мужским и женским голосом. При создании «Фонемафона-5» Борис Лобанов для подготовки фонетико-акустической базы данных зачитывал специальный текст в студии, чтобы записать минимально необходимое количество позиционных и комбинаторных аллофонов гласных и согласных, а затем нарезал звуковые сегменты при помощи редактора сигналов. Нарезанные оцифрованные сегменты хранились каждый в отдельном файле с уникальным именем: 8-битные значения уровня сигнала, дискретизированного с частотой 10 кГц. Александром Ивановым была подготовлена специальная утилита, которая собирала эти файлы вместе в определённом порядке и компилировала результирующие базы голосов, с которыми уже и работал движок синтезатора речи, также написанный Александром Ивановым. Задумывалось, что будет много вариантов мужских и женских голосов, но в итоге было подготовлено только по одному мужскому и женскому голосу. На базе «Фонемафона-5» научным сотрудником Института технической кибернетики АН РБ Георгием Лосиком в начале девяностых годов были созданы и распространены комплекты программного обеспечения, позволившие сделать работу в среде MS-DOS доступной для незрячих пользователей. Резидентные речевые драйверы SDRV синтезатора «Фонемафон-5», лицензировавшиеся международной лабораторией интеллектуальных систем «БелСИнт», долгие годы использовались в целом ряде программных продуктов для MS-DOS, нуждающихся в функциональности синтеза речи, в том числе в множестве программ экранного доступа, таких как «Аргус», «Сталкер» и других. К сожалению, ухудшение финансирования научных разработок в девяностых годах привело к снижению активности исследований в области синтеза речи и к распаду научного коллектива, разрабатывавшего конкретные реализации синтезаторов, что на фоне общей неразберихи привело к печальным последствиям в виде утраты исходного кода «Фонемафон-5». Архив с материалами проекта, хранившийся некоторое время на персональном компьютере Александра Иванова, также со временем был утрачен вместе с устаревшим оборудованием и не уцелел. Однако синтезатор «Фонемафон-5» за счёт своей компактности и высокой разборчивости речи продолжал оставаться востребованным многими людьми, что привело к ряду попыток его возрождения и переноса на более новые системы посредством дизассемблирования и обратной разработки. Несколько подобных инициатив закончились получением работоспособных, хотя и не эквивалентных версий синтезатора «Фонемафон-5», которые различаются особенностями технической реализации, но до недавнего времени были схожи общим неоднозначным правовым статусом. Одним из наиболее удачных проектов этого рода является обратная разработка «Фонемафона-5», выполненная Игорем Порецким в сотрудничестве с Дмитрием Падучих в середине двухтысячных годов с целью получения русскоязычного синтезатора речи для операционных систем GNU/Linux. Получившийся синтезатор был назван ru_tts и в своё время стал знаковым событием, так как был первым приемлемым решением по синтезу русской речи для систем семейства Linux. Долгие годы по этическим соображениям, связанным со спорным правовым статусом ru_tts, исходный код данного синтезатора речи не раскрывался. Однако в 2021 году были проведены переговоры, в результате которых было получено общее согласие со стороны Игоря Порецкого, который является автором программной реализации ru_tts, Дмитрия Падучих, который внёс заметный вклад на этапе начального дизассемблирования резидентного речевого драйвера SDRV, Бориса Лобанова, который был руководителем лаборатории, разработавшей «Фонемафон-5», и является автором его конструктивных решений, лёгших в основу ru_tts, а также Александра Иванова, который был инженером лаборатории и разработчиком оригинальной программной реализации «Фонемафона-5», о публикации исходного кода ru_tts на легальной основе под свободной лицензией MIT. Синтезатор ru_tts представляет собой альтернативную реализацию «Фонемафона-5», функционально близкую к оригинальному синтезатору для MS-DOS. Его код написан на языке C и легко собирается под различные операционные системы, разрядности и процессорные архитектуры. Код распространяется на условиях свободной лицензии MIT и опубликован в репозитории на GitHub.
История версий
Новое в версии 2023.12.31
- Добавлена совместимость с NVDA 2024.1.
- Основной движок ru_tts обновлён до коммита afc03c1.
- Словарь произношений RuLex обновлён до коммита cf64ff4.
- Библиотека sonic, используемая для функции дополнительного ускорения и регулировки громкости, обновлена до коммита 8694c59.
- Библиотека PCRE2, используемая в драйвере RuLex в качестве POSIX-совместимого средства для работы с регулярными выражениями, обновлена до версии 10.42.
- В Makefile добавлена цель pot для создания po-шаблона со строками для дальнейшего перевода.
Новое в версии 2023.05.08
- Добавлена совместимость с NVDA 2023.1.
- Основной движок ru_tts обновлён до коммита 86297b1.
- Словарь произношений RuLex обновлён до коммита bd6249e.
- Библиотека sonic, используемая для функции дополнительного ускорения и регулировки громкости, обновлена до коммита 0555641.
- Синтезатор больше не произносит символы круглых скобок при их получении от NVDA.
Новое в версии 2022.04.25
- Добавлена совместимость с NVDA 2022.1.
- Основной движок ru_tts обновлён до версии 6.0.3.
- Словарь произношений RuLex обновлён до версии 3.6.1.
- Добавлена поддержка чтения символов Unicode из кодового пространства Braille Patterns (символы в диапазоне от U+2800 до U+28FF).
- Библиотека PCRE2, используемая в драйвере RuLex в качестве POSIX-совместимого средства для работы с регулярными выражениями, обновлена до версии 10.40.
Новое в версии 2021.12.28
- Исправлено регулярное выражение для поиска аббревиатур. Теперь аббревиатуры определяются в большем числе случаев.
- Отдельно стоящие буквы латиницы теперь объявляются по своим названиям, также как и при посимвольном чтении.
- Реализовано чтение ведущих нулей в числах. Ранее в таких строках как «007» нули никак не сообщались.
- Исправлено посимвольное чтение при снятом флаге «Использовать посимвольное чтение» в настройках речи NVDA.
- Реализована обработка символа U+0301 (знак ударения). Синтезатор теперь корректно проставляет ударение в словах с этим символом.
- Изменена структура файла конфигурации ru_tts.ini. Общие параметры синтезатора перемещены в секцию «Parameters». Если в NVDA ранее была установлена предыдущая версия ru_tts, то после обновления дополнения, во избежание путаницы с дублированием параметров в ru_tts.ini, настоятельно рекомендуется удалить этот файл, перезагрузить синтезатор и при необходимости повторно отредактировать ru_tts.ini.
- В файл конфигурации ru_tts.ini добавлена секция «Characters», предназначенная для задания фонетических значений произвольных символов/букв.
- В файл конфигурации ru_tts.ini добавлена секция «SingleCharacters», предназначенная для задания названий произвольных символов/букв при посимвольном чтении.
- Реализована возможность Unicode-нормализации входного текста, перед его передачей движку ru_tts. Данная функция настраивается с помощью параметров use_unicode_normalization и unicode_normalization_form в файле конфигурации ru_tts.ini.
- СУБД Berkeley DB, используемая в библиотеке RuLex, обновлена до версии 18.1.40.
- В состав дополнения включены лицензии всех сторонних зависимостей.
Новое в версии 2021.11.14
- Основной движок ru_tts обновлён до версии 6.0.2.
- Словарь произношений RuLex обновлён до версии 3.6.0.
- Библиотека sonic, используемая для функции дополнительного ускорения и регулировки громкости, обновлена до коммита e06dbb9.
- Сбой загрузки базы данных словаря произношений RuLex, наблюдаемый на некоторых старых машинах, больше не приводит к невозможности использования синтезатора. ru_tts в этом случае корректно загрузится, но флаг «Использовать словарь произношений RuLex», в настройках речи NVDA, будет недоступен.
- Некоторые настройки синтезатора вынесены в конфигурационный файл ru_tts.ini, создаваемый при первой загрузке в пользовательском каталоге настроек NVDA. Для установочной версии это %APPDATA%\nvda.
История версий
Список версий
- RuTTS-V.2025.06.21.nvda-addon
- RuTTS-V.2025.05.06.nvda-addon
- RuTTS-V.2023.12.31.nvda-addon
- RuTTS-V.2023.05.08.nvda-addon
- RuTTS-V.2023.04.07.nvda-addon
- RuTTS-V.2023.02.28.nvda-addon
- RuTTS-V.2022.04.25.nvda-addon
- RuTTS-V.2021.12.28.nvda-addon
- RuTTS-V.2021.11.14.nvda-addon
- RuTTS-V.0.4.0.nvda-addon
- RuTTS-V.0.3.0.nvda-addon
- RuTTS-V.0.2.1.nvda-addon
- RuTTS-V.0.1.0.nvda-addon