| Название НИОКТР |
Разработка методов и программных систем для интеллектуальной поддержки принятия решений по проектированию систем машинного перевода для малоресурсных пар языков
|
| Аннотация |
Область построения систем автоматического машинного перевода получила стремительное развитие в последние годы, во многом благодаря успешному использованию современных методов машинного обучения. Однако методы нейросетевого машинного перевода, позволяющие достичь наилучших результатов для крупнейших пар мировых языков (англо-немецкой, англо-китайской и других), невозможно напрямую использовать в случае недостатка обучающих данных в малоресурсных языках. Данный проект направлен на разработку методов и программных средств для ряда языковых пар, в которых один язык является русским, а второй принадлежит к тюркской языковой группе. Благодаря решению поставленных в рамках проекта задач: накоплению параллельных обучающих корпусов данных, разработке метода унификации собранных параллельных корпусов на основе структурно-функциональной модели тюркских морфем, а также программных средств обучения многоязычного машинного переводчика на основе подходов переноса знаний (transfer learning) и искусственного увеличения объема данных (data augmentation) - планируется преодолеть проблему недостатка обучающих данных. Это должно позволить впервые создать системы перевода для 5 языковых пар (крымскотатарско-русской, хакасско-русской, тувинско-русской, алтайско-русской, кумыкско-русской), кроме того, итоговая система машинного перевода также будет работать с ещё 6 языковыми парами (татарско-русской, башкирско-русской, чувашско-русской, казахско-русской, киргизско-русской, узбекскорусской). Результаты исследования позволят представить информацию о степени влияния множества параметров (объёма использованных корпусов родственных языков, искусственно сгенерированных параллельных данных, применение различных методик обучения и выбора архитектур нейросети) на качество работы итоговой системы машинного перевода, что позволит принимать более обоснованные решения при проектировании систем машинного перевода для других малоресурсных пар языков
|
| Доступ к ОКОГУ исполнителя |
False
|
| Количество связанных РИД |
0
|
| Количество завершенных ИКРБС |
0
|
| Сумма бюджета |
3000.0
|
| Дата начала |
2024-01-01
|
| Дата окончания |
2025-12-31
|
| Номер контракта |
24-21-00453
|
| Дата контракта |
2023-12-29
|
| Количество отчетов |
2
|
| УДК |
004.8.032.26
|
| Количество просмотров |
1
|
| Руководитель работы |
Сулейманов Джавдет Шевкетович
|
| Руководитель организации |
Минниханов Рифкат Нургалиевич
|
| Исполнитель |
ГОСУДАРСТВЕННОЕ НАУЧНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "АКАДЕМИЯ НАУК РЕСПУБЛИКИ ТАТАРСТАН"
|
| Заказчик |
Российский научный фонд
|
| Федеральная программа |
Отсутствует
|
| Госпрограмма |
—
|
| Основание НИОКТР |
Грант
|
| Последний статус |
2026-02-05 14:38:10 UTC, 2026-02-05 14:38:10 UTC
|
| ОКПД |
Услуги по обработке данных
|
| Отраслевой сегмент |
—
|
| Минздрав |
—
|
| Межгосударственная целевая программа |
—
|
| Ключевые слова |
машинное обучение; искусственный интеллект; перенос знаний; малоресурсные языки; машинный перевод
|
| Соисполнители |
—
|
| Типы НИОКТР |
Фундаментальное исследование
|
| Приоритетные направления |
—
|
| Критические технологии |
—
|
| Рубрикатор |
28.23.01 - Общие вопросы искусственного интеллекта; 28.23.37 - Нейронные сети
|
| OECD |
—
|
| OESR |
Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8)
|
| Приоритеты научно-технического развития |
а) переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта;
|
| Регистрационные номера |
—
|