| Аннотация |
Геномные энхансеры регулируют экспрессию генов эукариот. Недавно были достигнуты успехи по выделению энхансерных РНК, что позволяет анализировать активность энхансеров с помощью инструментов высокопроизводительного РНК-секвенирования, в частности, экспериментов кэп-анализа генной экспрессии (CAGE-seq). В настоящее время активно развиваются проекты по аннотации геномных энхансеров и энхансерных РНК, на основе, в том числе, и данных экспериментов CAGE-seq.
Подходы, основанные на транскриптомных данных, чаще всего используют относительно грубые методы предсказания энхансеров, основанные на принципе кластеризации двунаправленных стартов транскрипции (DPI1) по расстоянию между сайтами меток CAGE и фиксированном фланкировании предсказанных районов (eRNA-DB, FANTOM). Таким образом, актуально более точное предсказание локусов энхансерных РНК на основе транскриптомных данных. Для более точного предсказания энхансеров были разработаны методы на основе скрытых марковских моделей (HMM) геномных последовательностей. Одним из последних методов, не зависящим от параметра порога, является eHMM.
При анализе геномных энхансеров особенно важно предсказание взаимодействия активных энхансеров с регулируемыми ими сайтами старта транскрипции. Данные CAGE позволяют установить корреляцию между экспрессией энхансера и области старта транскрипции. На основании этих данных можно судить о предполагаемом взаимодействии между энхансером и промотором, управляющим данным стартом транскрипции. Современные методами предсказания взаимодействий, использующие транскриптомные данные, основаны на обычной метрике корреляции, чаще всего Пирсона. Таким образом, актуально использование метрик, которые дадут более чувствительные и специфичные оценки взаимодействия, таких как площадь под кривой, индекс Джини (Gini index) и других.
Анализ промоторных районов генов часто показывает отличия от существующей аннотации, это может быть обусловлено как несовершенством современной аннотации, так и существованием транскриптов, не известных ранее и активируемых при определенных нестандартных условиях. В частности, регуляция генов, контролирующих массу тела может происходить с использованием альтернативных промоторов, с которых считываются такие транскрипты. Данные экспериментов CAGE позволяют определить старты таких транскриптов, то есть выявить события промоторного сдвига (promoter shift). Для определения статистической значимости событий промоторного сдвига используют непараметрические критерии опровержения гипотез, например, популярный пакет CAGEfightR использует для этой цели тест Колмогорова-Смирнова, однако, статистические свойства альтернативного сигнала старта транскрипции в экспериментах CAGE недостаточно хорошо изучены. Также, несмотря на достижения проекта FANTOM5, карта стартов транскрипции в геноме курицы остается неполной. Таким образом, актуально исследование событий промоторного сдвига на новых данных CAGE.
В настоящее время доступны данные экспериментов CAGE для нескольких тканей курицы, включая мышцы, почки, печень, мозг и другие. Таким образом, существует возможность аннотировать энхансеры и альтернативные страрты транскрипции, активные в широком спектре тканей, что обеспечит полноту аннотации, учитывая дифференциальную экспрессию изоформ генов и энхансерных РНК в различных тканях.
Все результаты аннотации энхансеров и стартов транскриции, а атакже предсказания взаимодействий между энхансерами и промоторами будут опубликованы в российской базе данных регуляции транскрипции GTRD, разработанной в группе Ф.А. Колпакова (Kolmykov et al., 2021; https://doi.org/10.1093/nar/gkaa1057), что обеспечит интеграцию знаний о регуляции транскрипции генов.
|