Глобальный поиск Единое окно поиска по РИД и запросам

Программный модуль синтаксического анализа литературных произведений с использованием OCR-ридеров и регулярных выражений

Наименование РИД Программный модуль синтаксического анализа литературных произведений с использованием OCR-ридеров и регулярных выражений
Реферат Программный модуль предназначен для обработки PDF-файлов, содержащих целиком отсканированные книги со встроенным результатом распознавания текста и сопутствующим оглавлением в формате CSV. В модуле выполняется извлечение текста из PDF с сохранением структуры и стиля, производится корректировка артефактов распознавания, формируются логически разделённые фрагменты на основе оглавления из сопутствующего CSV-файла, структурные элементы преобразуются в семантически корректный HTML. В результирующем HTML-файле автоматически расставляются сноски, им присваиваются идентификаторы и создаются двусторонние гиперссылки, обеспечивая связь и навигацию между отдельными фрагментами документа. Язык программирования: Python Типа ЭВМ: PC Тип и версия операционной системы: Windows 7 и выше, Linux-совместимые ОС (Astra Linux, Ubuntu/Debian, Redhat, и др.). Объем 19,3 КБ
Возможные направления использования Программный модуль может использоваться для обработки отсканированных книг в формате PDF, имеющих текстовый слой и сопутствующее оглавление в формате csv.
Количество опытных образцов 0
Количество просмотров 2
Наличие дополнительных файлов False
Использование РИД правообладателем False
Внешнее использование РИД False
НИОКТР (JSON) {}
ИКСИ (JSON) []
ИКСПО (JSON) []
ОЭСР (JSON) []
Дата первого статуса 2025-12-16T12:14:08.766306+00:00
Предполагаемый тип результата Программа для ЭВМ
Ожидаемая роль Исполнитель
Заказчик ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК"
Руководитель работы Тесля Николай Николаевич
Руководитель организации Ронжин Андрей Леонидович
Регистрационный номер НИОКТР
Последний статус Подтверждена, 625121900247-3, 2025-12-19 10:01:47 UTC
ОКПД Работы оригинальные научных исследований и экспериментальных разработок в области естественных и технических наук, кроме биотехнологии
Ключевые слова обработка; документ; OCR
Исполнители ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК"
Авторы Кассаб Кенан
Коды тематических рубрик 20.19.27 - Автоматизация знаковой обработки текста
OESR Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8)
Приоритеты научно-технического развития Отсутствует