Индексирование сжатых данных: быстрые и компактные алгоритмы, анализ эффективности

Название НИОКТР	Индексирование сжатых данных: быстрые и компактные алгоритмы, анализ эффективности
Аннотация	Проект направлен на исследование задач хранения и обработки больших объёмов данных с избыточностью (что подразумевает их сжимаемость). Во многих областях наблюдается взрывообразный рост таких данных, причём часто это не просто мёртвые репозитории, которые можно было бы заархивировать (т.е. сжать) и извлекать лишь в тех редких случаях, когда они понадобятся, а это живые данные, к которым необходим непрерывный доступ для поиска в них или проведения каких-то операций обработки и анализа. Но объёмы таких данных в подобных приложениях далеко не всегда позволяют хранить их в несжатом или фрагментарно сжатом виде (что, на первый взгляд, кажется необходимым для обеспечения быстрого доступа) с приемлемыми затратами на носители памяти. Эта ситуация порождает ряд теоретических и практических вызовов. Проект предполагает, во-первых, исследование и улучшение определённых недавно появившихся прорывных методов хранения данных в сжатом виде, а во-вторых, исследование структур хранения сжатых данных с возможностью быстрого поиска, доступа и выполнения других запросов. Подобные структуры называются сжатыми индексами. Будут рассмотрены как чисто теоретические задачи (анализ эффективности существующих методов), так и задачи, имеющие прикладное значение (новые сжатые индексы). Конкуренция в данной теме высока, но заявитель имеет успешный опыт работы в ней, вылившийся в публикации высокого международного уровня, что обеспечит выполнение проекта. Ниже более подробно раскрыто содержание проекта. Последнее десятилетие в области хранения данных в сжатом виде без потерь наблюдается определённое оживление, главным образом среди практиков и технологических компаний, простимулированное появлением нового семейства энтропийных кодеров: Asymmetric Numeral Systems (ANS). Энтропийный кодер является базовой частью большинства алгоритмов сжатия, в том числе сжатых индексов. Новые ANS кодеры пришли на замену классическим кодерам Хаффмана и арифметическим кодерам, предоставляя качество последних со скоростью первых. В то время как практическая значимость ANS очевидна, теоретическое место ANS, обосновывающее его успех, не до конца понятно. В рамках проекта предполагается восполнить пробел в теоретическом понимании эффективности ANS кодеров, математически точно оценив их избыточность; также планируется разработать модификации ANS с улучшенным временем работы в некоторых ситуациях с прицелом на использование этих модификаций в сжатых индексах. Сжатые индексы активно разрабатывают с 2000-х годов. Наибольшего успеха, по-видимому, эта область добилась в биоинформатике, где такие инструменты являются стандартом и не удивляет, что компьютер с 32 гигабайтами памяти может моментально осуществлять поиск в (локальной) базе из тысяч геномов, которая в несжатом виде могла бы занимать десятки терабайт. Почему же эти индексы не получили большего распространения в других областях, где они могли бы демонстрировать такие же впечатляющие результаты? (Например, для систем контроля версий, файлов журналирования, данных социальных сетей и т.д.). По-видимому, причина в том, что до сих пор не существует, во-первых, достаточно быстрых и, главное, приемлемых по потребляемой памяти алгоритмов построения этих индексов (например, базу геномов индексируют на суперкомпьютере и распространяют уже готовый индекс среди пользователей), а во-вторых, не существует эффективных индексов с возможностью редактировать индексируемые данных, хотя бы добавляя новые. В рамках проекта предполагается подступиться к решению этих проблем, разработав сжатый индекс с возможностью эффективного добавления новых данных и с быстрыми стандартными операция доступа и поиска. Результатами проекта будут математические модели, доказательства, структуры данных, алгоритмы и теоретические и экспериментальные оценки их релевантности и эффективности. Результаты обеспечат дальнейший прогресс в области сжатого хранения данных, индексных структур и информационного поиска, а также смогут быть применимы в некоторых практических приложениях.
Доступ к ОКОГУ исполнителя	True
Количество связанных РИД	0
Количество завершенных ИКРБС	0
Сумма бюджета	1500.0
Дата начала	2025-11-24
Дата окончания	2026-06-30
Номер контракта	24-71-00062
Дата контракта	2025-11-24
Количество отчетов	1
УДК	002.6:004.3; 002.6:022.9
Количество просмотров	3
Руководитель работы	Косолобов Дмитрий Александрович
Руководитель организации	Лебедева Елена Витальевна
Исполнитель	ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ"
Заказчик	Российский научный фонд
Федеральная программа	Отсутствует
Госпрограмма	—
Основание НИОКТР	Грант
Последний статус	2025-12-05 08:00:58 UTC, 2025-12-05 08:00:58 UTC
ОКПД	Услуги, связанные с научными исследованиями и экспериментальными разработками в области компьютерных наук и информационных технологий
Отраслевой сегмент	—
Минздрав	—
Межгосударственная целевая программа	—
Ключевые слова	сжатые структуры данных; разложение Лемпеля-Зива; строковые аттракторы; энтропийное кодирование; ANS
Соисполнители	—
Типы НИОКТР	Фундаментальное исследование
Приоритетные направления	—
Критические технологии	—
Рубрикатор	20.53.19 - Средства обработки и поиска информации
OECD	—
OESR	Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8)
Приоритеты научно-технического развития	а) переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта;
Регистрационные номера	—