| Наименование РИД |
СинТагРус (2025)
|
| Реферат |
База данных (БД) представляет собой коллекцию текстов на русском языке, снабженных различными лингвистическими и экстралингвистическими типами разметки, включая морфологическую, синтаксическую, эллиптическую, лексико-функциональную, лексико-семантическую, микросинтаксическую, кореферентную, темпоральную, а также метаразметку.
Все типы разметки, кроме кореферентной и темпоральной, покрывают все тексты корпуса. Кореферентной разметкой покрыто 36 текстов, а темпоральной – 12.
БД предназначена для решения компьютерно-лингвистических задач и лингвистических исследований и применяется для разработки высококачественных парсеров, создания датасетов для машинного обучения и алгоритмов обработки текста.БД насчитывает свыше 1 580 000 слововхождений (свыше 110 000 предложений в 1388 текстах), а разметка текстов проходит ручную проверку.
|
| Возможные направления использования |
Исследования в области теоретической и прикладной лингвистики. Разработка систем машинного обучения для решения задач в области компьютерной лингвистики и обработки естественного языка
|
| Количество опытных образцов |
1
|
| Количество просмотров |
6
|
| Наличие дополнительных файлов |
True
|
| Использование РИД правообладателем |
False
|
| Внешнее использование РИД |
False
|
| НИОКТР (JSON) |
{}
|
| ИКСИ (JSON) |
[]
|
| ИКСПО (JSON) |
[]
|
| ОЭСР (JSON) |
[]
|
| Дата первого статуса |
2025-12-01T13:28:41.789160+00:00
|
| Предполагаемый тип результата |
База данных
|
| Ожидаемая роль |
Исполнитель
|
| Заказчик |
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ПРОБЛЕМ ПЕРЕДАЧИ ИНФОРМАЦИИ ИМ. А.А. ХАРКЕВИЧА РОССИЙСКОЙ АКАДЕМИИ НАУК
|
| Руководитель работы |
Богуславский Игорь Михайлович
|
| Руководитель организации |
Федоров Максим Валериевич
|
| Регистрационный номер НИОКТР |
—
|
| Последний статус |
Подтверждена, 625120800225-5, 2025-12-08 12:11:45 UTC
|
| ОКПД |
Нет
|
| Ключевые слова |
Синтаксис; Морфология; СинТагРус; Корпус
|
| Исполнители |
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ПРОБЛЕМ ПЕРЕДАЧИ ИНФОРМАЦИИ ИМ. А.А. ХАРКЕВИЧА РОССИЙСКОЙ АКАДЕМИИ НАУК
|
| Авторы |
Щербак Никита Сергеевич; Фролова Татьяна Ильинична; Тимошенко Светлана Петровна; Сизов Виктор Геннадьевич; Мовсесян Андрей Арсенович; Митюшин Леонид Григорьевич; Лазурский Александр Вадимович; Лазурская Ирина Евгеньевна; Иншакова Евгения Сергеевна; Дяченко Павел Владимирович; Диконов Вячеслав Григорьевич; Богуславский Игорь Михайлович
|
| Коды тематических рубрик |
16.31.21 - Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи
|
| OESR |
Лингвистика
|
| Приоритеты научно-технического развития |
Отсутствует
|