| Аннотация |
Проект направлен на создание универсальной поисковой протеомной машины для идентификации белков в хроматомасс-спектрометрических данных. В настоящее время существует два основных подхода к проведению протеомных экспериментов: информационно-зависимый (DDA) и информационно-независимый (DIA), причем оба подхода основаны на масс-спектрах фрагментации пептидов. Кроме того, нашей группой активно развивается альтернативный подход DirectMS1, который основывается на масс-спектрах первого уровня без использования фрагментации.
В первую очередь, в проекте будут детально изучены недостатки современных подходов по анализу данных типа DIA. В 2024 году вышла работа (10.1101/2024.06.01.596967), которая показывает, что активно используемые поисковые машины для DIA данных выдают результаты с сильно завышенным уровнем ложно-положительных идентификаций (FDR). Согласно предварительным исследованиям в нашей группе, мы обнаружили проблемы с достоверностью результатов количественного анализа белков в DIA данных, также выявили одну из базовых причин появления недостоверных результатов идентификаций и отдельно предполагаем, что метод DIA не будет хорошо работать в случае протеогеномики из-за большого количества ложно-положительных идентификаций вариантных пептидов. Таким образом, мы планируем детально разобраться в причинах и наличии ошибок, учесть их и создать свою поисковую машину для DIA данных.
Кроме того, планируется существенно модифицировать нашу ранее созданную протеомную машину IdentiPy для DDA данных. В частности, в последние года активно создаются и применяются модели машинного обучения для предсказания хроматографических времен удерживания и масс-спектров фрагментации пептидов. Интеграция таких подходов в поисковую протеомную машину позволит значительно повысить эффективность протеомного анализа.
Еще одной идеей проекта будет созданием универсальной поисковой протеомной машины для всех типов данных (MS1, DDA и DIA) на базе поисковой машины ms1searchpy, существующей на данный момент для подхода DirectMS1. В наших нескольких недавних работах мы применяли поисковик ms1searchpy для анализа данных DDA и DIA игнорируя масс-спектры фрагментации пептидов. Оказалось, что результаты количественного анализа белков на некоторых наборах данных таким образом получаются даже лучше, чем использование специализированных алгоритмов. Мы полагаем, что главным объяснением является белок-центричный подход (в отличии от пептид-центричного в обычных методах) и упор на эффективном извлечении пептидных изотопных кластеров в МС1 спектрах. Мы хотим создать универсальный протеомный поисковик на базе ms1searchpy, который бы работал как в текущем режиме, так и использовал бы масс-спектры фрагментации пептидов при их наличии.
В качестве объекта исследований и биологического применения в проекте будут использованы различные раковые клеточные линии из панели ATCC. В частности, нас интересует механизмы защиты клеток от ферроптоза, которые можно наблюдать по дифференциально экспресированным белкам. Кроме того, мы хотим попытаться найти протеоформы белков (модификации и полиморфизмы), экспрессируемых в живых клетках и связанных с этим механизмом защиты. Наша недавняя работа по изучению болезни Альцгеймера показала возможную связь полиморфизма rs1130409 белка APEX1 с механизмом защиты от ферроптоза, но данный проект предполагает активное изучение и других белков, наблюдаемых в полнопротеомном анализе. Упомянутые клеточные линии будут подвергаться воздействию известных активаторов ферроптоза, таких как Erastin и Sorafenib (согласно работе doi.org/10.1038/s41420-022-01297-7) и будет проведен полнопротеомный анализ этих клеточных линий при разной степени воздействия.
Таким образом, выполнение проекта позволит иметь программный комплекс для выполнения задач идентификации белков во всех активно используемых типах хроматомасс-спектрометрических данных, разработанный в России.
|