Разработка вычислительно эффективной технологии конфиденциальной обработки и анализа разнородных неидентично распределенных данных

Название НИОКТР	Разработка вычислительно эффективной технологии конфиденциальной обработки и анализа разнородных неидентично распределенных данных
Аннотация	Применение технологий на основе искусственного интеллекта позволяет значительно повысить эффективность процессов поддержки принятия решений в различных отраслях экономики, таких как промышленность, сельское хозяйство, транспорт, здравоохранение, образование и т.д. Однако для достижения должного уровня производительности моделям глубокого машинного обучения требуются десятки миллионов обучающих примеров, например, изображений и текстов. За исключением таких крупных корпораций, как VK, SBER, Yandex, Google, Amazon и Facebook, ограниченные, некачественные и немаркированные данные являются скорее нормой, чем исключением. Это особенно актуально для таких отраслей экономики как безопасность, финансы и здравоохранение, где наборы данных находятся в различных организациях и департаментам, формируя изолированные «острова данных». Часто такие данные включают в себя данные с ограниченным доступом, чья конфиденциальность гарантируется на законодательном уровне. В настоящее время предложен ряд технологий, направленных на обеспечение конфиденциальности анализируемых данных. К ним относится федеративное обучение (ФО), которое представляет собой парадигму машинного обучения, при котором используемая обучающая выборка не передается третьим лицам, осуществляющим формирование модели искусственного интеллекта. Исследования показали, что такие модели, обученные в федеративном режиме, демонстрируют эффективность в решение различных задач, сравнимую с эффективностью моделей, обученных классическим образом, т.е. на всем доступном наборе данных. Кроме того, ФО позволяет реализовывать механизмы адаптации моделей к дрейфу анализируемых данных, за счет естественной возможности встраивать и применять методы трансферного обучения и непрерывного открытого обучения (open-ended learning). Тем не менее, применение ФО на практике требует решения ряда важных практических и теоретических задач, связанных с неоднородностью вычислительной среды, определяемой как на уровне устройств, так и на уровне данных. Неоднородность в данных, возникающая в результате различного распределения меток в обучающих данных, сдвига и дрейфа концепций в данных, значительно влияет на эффективность ФО. В настоящее время предложен ряд решений, позволяющие применять ФО в неоднородных условиях, однако исследования показали, что в литературе в основном исследуется проблема неидентично распределенных меток классов, в то время как для многих предметных областей, например, кибербезопасности, характерен сдвиг концепций, особенно для данных, описывающих нормальное поведение системы. Кроме того, отсутствует единая методология оценки неоднородности данных, позволяющая выбрать оптимальную стратегию формирования глобальных аналитических моделей, обучаемых в федеративном режиме. Целью проекта является разработка вычислительно эффективной технологии конфиденциальной обработки и анализа статистически неоднородных данных на основе ФО, которая учитывает неоднородность вычислительной среды, в которой она применяется, за счет разработки единой методологии оценки неоднородности данных и моделирования таких данных, поиска оптимальных стратегий формирования глобальных аналитических моделей, учитывающих не только неоднородность на уровне данных, но и на уровне вычислительных ресурсов устройств информационной системы. В рамках проекта также будут разработаны методы динамического формирования обучающих наборов данных для потоковых данных с учетом ограниченных возможностей устройств хранения, основанные на статистической значимости образцов данных по отношению к локальным и глобальным моделям. Для оценки разработанных моделей, методов и алгоритмов будут разработаны сценарии их использования в различных предметных областях - в задачах обнаружения аномалий в сетевых данных, а также анализа документов в системе документооборота в образовательной деятельности.
Доступ к ОКОГУ исполнителя	False
Количество связанных РИД	0
Количество завершенных ИКРБС	0
Сумма бюджета	10500.0
Дата начала	2025-05-21
Дата окончания	2027-12-31
Номер контракта	25-11-20020
Дата контракта	2025-05-21
Количество отчетов	3
УДК	002.6:004.3; 002.6:022.9
Количество просмотров	14
Руководитель работы	Холод Иван Иванович
Руководитель организации	Семенов Александр Анатольевич
Исполнитель	ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ "ЛЭТИ" ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА)"
Заказчик	Российский научный фонд
Федеральная программа	Отсутствует
Госпрограмма	—
Основание НИОКТР	Грант
Последний статус	2025-07-17 14:23:43 UTC, 2025-07-17 14:23:43 UTC
ОКПД	Нет
Отраслевой сегмент	—
Минздрав	—
Межгосударственная целевая программа	—
Ключевые слова	ограниченные вычислительные ресурсы; глубокие стохастические самоконфигурируемые нейронные сети; неидентично распределенные данные; неоднородные данные; федеративное глубокое обучение; конфиденциальный анализ данных
Соисполнители	—
Типы НИОКТР	Поисковое (ориентированные фундаментальные) исследование
Приоритетные направления	—
Критические технологии	—
Рубрикатор	20.53.19 - Средства обработки и поиска информации
OECD	—
OESR	Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8)
Приоритеты научно-технического развития	а) переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта;
Регистрационные номера	—