Программный модуль синтаксического анализа литературных произведений с использованием OCR-ридеров и регулярных выражений
| Наименование РИД | Программный модуль синтаксического анализа литературных произведений с использованием OCR-ридеров и регулярных выражений |
|---|---|
| Реферат | Программный модуль предназначен для обработки PDF-файлов, содержащих целиком отсканированные книги со встроенным результатом распознавания текста и сопутствующим оглавлением в формате CSV. В модуле выполняется извлечение текста из PDF с сохранением структуры и стиля, производится корректировка артефактов распознавания, формируются логически разделённые фрагменты на основе оглавления из сопутствующего CSV-файла, структурные элементы преобразуются в семантически корректный HTML. В результирующем HTML-файле автоматически расставляются сноски, им присваиваются идентификаторы и создаются двусторонние гиперссылки, обеспечивая связь и навигацию между отдельными фрагментами документа. Язык программирования: Python Типа ЭВМ: PC Тип и версия операционной системы: Windows 7 и выше, Linux-совместимые ОС (Astra Linux, Ubuntu/Debian, Redhat, и др.). Объем 19,3 КБ |
| Возможные направления использования | Программный модуль может использоваться для обработки отсканированных книг в формате PDF, имеющих текстовый слой и сопутствующее оглавление в формате csv. |
| Количество опытных образцов | 0 |
| Количество просмотров | 2 |
| Наличие дополнительных файлов | False |
| Использование РИД правообладателем | False |
| Внешнее использование РИД | False |
| НИОКТР (JSON) | {} |
| ИКСИ (JSON) | [] |
| ИКСПО (JSON) | [] |
| ОЭСР (JSON) | [] |
| Дата первого статуса | 2025-12-16T12:14:08.766306+00:00 |
| Предполагаемый тип результата | Программа для ЭВМ |
| Ожидаемая роль | Исполнитель |
| Заказчик | ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК" |
| Руководитель работы | Тесля Николай Николаевич |
| Руководитель организации | Ронжин Андрей Леонидович |
| Регистрационный номер НИОКТР | — |
| Последний статус | Подтверждена, 625121900247-3, 2025-12-19 10:01:47 UTC |
| ОКПД | Работы оригинальные научных исследований и экспериментальных разработок в области естественных и технических наук, кроме биотехнологии |
| Ключевые слова | обработка; документ; OCR |
| Исполнители | ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК" |
| Авторы | Кассаб Кенан |
| Коды тематических рубрик | 20.19.27 - Автоматизация знаковой обработки текста |
| OESR | Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8) |
| Приоритеты научно-технического развития | Отсутствует |
