| Аннотация |
Применение технологий на основе искусственного интеллекта позволяет значительно повысить эффективность процессов поддержки принятия решений в различных отраслях экономики, таких как промышленность, сельское хозяйство, транспорт, здравоохранение, образование и т.д. Однако для достижения должного уровня производительности моделям глубокого машинного обучения требуются десятки миллионов обучающих примеров, например, изображений и текстов. За исключением таких крупных корпораций, как VK, SBER, Yandex, Google, Amazon и Facebook, ограниченные, некачественные и немаркированные данные являются скорее нормой, чем исключением. Это особенно актуально для таких отраслей экономики как безопасность, финансы и здравоохранение, где наборы данных находятся в различных организациях и департаментам, формируя изолированные «острова данных». Часто такие данные включают в себя данные с ограниченным доступом, чья конфиденциальность гарантируется на законодательном уровне.
В настоящее время предложен ряд технологий, направленных на обеспечение конфиденциальности анализируемых данных. К ним относится федеративное обучение (ФО), которое представляет собой парадигму машинного обучения, при котором используемая обучающая выборка не передается третьим лицам, осуществляющим формирование модели искусственного интеллекта. Исследования показали, что такие модели, обученные в федеративном режиме, демонстрируют эффективность в решение различных задач, сравнимую с эффективностью моделей, обученных классическим образом, т.е. на всем доступном наборе данных. Кроме того, ФО позволяет реализовывать механизмы адаптации моделей к дрейфу анализируемых данных, за счет естественной возможности встраивать и применять методы трансферного обучения и непрерывного открытого обучения (open-ended learning).
Тем не менее, применение ФО на практике требует решения ряда важных практических и теоретических задач, связанных с неоднородностью вычислительной среды, определяемой как на уровне устройств, так и на уровне данных. Неоднородность в данных, возникающая в результате различного распределения меток в обучающих данных, сдвига и дрейфа концепций в данных, значительно влияет на эффективность ФО. В настоящее время предложен ряд решений, позволяющие применять ФО в неоднородных условиях, однако исследования показали, что в литературе в основном исследуется проблема неидентично распределенных меток классов, в то время как для многих предметных областей, например, кибербезопасности, характерен сдвиг концепций, особенно для данных, описывающих нормальное поведение системы. Кроме того, отсутствует единая методология оценки неоднородности данных, позволяющая выбрать оптимальную стратегию формирования глобальных аналитических моделей, обучаемых в федеративном режиме.
Целью проекта является разработка вычислительно эффективной технологии конфиденциальной обработки и анализа статистически неоднородных данных на основе ФО, которая учитывает неоднородность вычислительной среды, в которой она применяется, за счет разработки единой методологии оценки неоднородности данных и моделирования таких данных, поиска оптимальных стратегий формирования глобальных аналитических моделей, учитывающих не только неоднородность на уровне данных, но и на уровне вычислительных ресурсов устройств информационной системы. В рамках проекта также будут разработаны методы динамического формирования обучающих наборов данных для потоковых данных с учетом ограниченных возможностей устройств хранения, основанные на статистической значимости образцов данных по отношению к локальным и глобальным моделям. Для оценки разработанных моделей, методов и алгоритмов будут разработаны сценарии их использования в различных предметных областях - в задачах обнаружения аномалий в сетевых данных, а также анализа документов в системе документооборота в образовательной деятельности.
|