Nature: дает прогнозы, как редкие генетические варианты влияют на здоровье
Предрасположенность к определенным заболеваниям во многом зависит от бесчисленных вариантов в нашем геноме. Однако, особенно в случае генетических вариантов, которые редко встречаются в популяции, до сих пор было трудно определить влияние на проявление определенных патологических признаков. Исследователи из Немецкого центра исследований рака (DKFZ), Европейской лаборатории молекулярной биологии (EMBL) и Мюнхенского технического университета представили алгоритм, основанный на глубоком обучении, который может предсказывать эффекты редких генетических вариантов. Метод позволяет более точно различать людей с высоким риском заболевания и облегчает идентификацию генов, которые участвуют в развитии заболеваний. Исследование было опубликовано в Nature Genetics.
Геном каждого человека отличается от генома его собратьев по человечеству миллионами отдельных строительных блоков. Эти различия в геноме известны как варианты. Многие из этих вариантов связаны с определенными биологическими признаками и заболеваниями. Такие корреляции обычно определяются с помощью так называемых исследований ассоциаций по всему геному.
Но влияние редких вариантов, которые встречаются с частотой всего 0,1% или меньше в популяции, часто статистически упускается из виду в ассоциативных исследованиях. «Редкие варианты в частности часто оказывают значительно большее влияние на проявление биологического признака или заболевания», — говорит Брайан Кларк, один из авторов настоящего исследования. «Поэтому они могут помочь идентифицировать те гены, которые играют роль в развитии заболевания, и которые затем могут указать нам направление новых терапевтических подходов», — говорит соавтор исследования Ева Хольткамп.
Чтобы лучше предсказать эффекты редких вариантов, команды под руководством Оливера Стегле и Брайана Кларка из DKFZ и EMBL и Жюльена Ганьера из Мюнхенского технического университета разработали инструмент оценки риска на основе машинного обучения. «DeepRVAT» (тестирование ассоциаций между вариантами), как назвали этот метод исследователи, является первым методом , в котором искусственный интеллект (ИИ) используется в геномных ассоциативных исследованиях для расшифровки редких генетических вариантов.
Первоначально модель была обучена на данных последовательностей (экзомных последовательностях) 161 000 человек из UK Biobank. Кроме того, исследователи ввели информацию о генетически обусловленных биологических признаках отдельных людей, а также о генах, вовлеченных в признаки. Последовательности, использованные для обучения, включали около 13 миллионов вариантов. Для каждого из них доступны подробные «аннотации», предоставляющие количественную информацию о возможных эффектах, которые соответствующий вариант может оказывать на клеточные процессы или на структуру белка. Эти аннотации также были центральным компонентом обучения.
После обучения DeepRVAT способен предсказать для каждого человека, какие гены нарушены в своей функции редкими вариантами. Для этого алгоритм использует индивидуальные варианты и их аннотации для расчета числового значения, описывающего степень нарушения гена и его потенциальное влияние на здоровье.
Исследователи проверили DeepRVAT на геномных данных из UK Biobank. Для 34 проверенных признаков, т. е. результатов анализов крови, связанных с заболеванием, метод тестирования обнаружил 352 ассоциации с вовлеченными генами, что намного превосходит все ранее существовавшие модели. Результаты, полученные с помощью DeepRVAT, оказались очень надежными и лучше воспроизводимыми в независимых данных, чем результаты альтернативных подходов.
Еще одним важным применением DeepRVAT является оценка генетической предрасположенности к определенным заболеваниям. Исследователи объединили DeepRVAT с полигенной оценкой риска на основе более распространенных генетических вариантов. Это значительно повысило точность прогнозов, особенно для вариантов с высоким риском. Кроме того, оказалось, что DeepRVAT распознает генетические корреляции для многочисленных заболеваний, включая различные сердечно-сосудистые заболевания, типы рака, метаболические и неврологические заболевания, которые не были обнаружены с помощью существующих тестов.
«DeepRVAT имеет потенциал для значительного продвижения персонализированной медицины. Наш метод функционирует независимо от типа признака и может гибко сочетаться с другими методами тестирования», — говорит физик и специалист по данным Оливер Стегл. Теперь его команда хочет как можно быстрее дополнительно протестировать инструмент оценки риска в крупномасштабных испытаниях и внедрить его в практику. Например, ученые уже контактируют с организаторами INFORM. Цель этого исследования — использовать геномные данные для определения индивидуально подобранных методов лечения для детей с раком, у которых случился рецидив. DeepRVAT может помочь раскрыть генетическую основу некоторых видов детского рака.
«Я нахожу потенциальное влияние DeepRVAT на приложения по редким заболеваниям захватывающим. Одной из основных проблем в исследовании редких заболеваний является отсутствие масштабных систематических данных. Используя мощь ИИ и полмиллиона экзомов в британском биобанке, мы объективно определили, какие генетические варианты наиболее существенно нарушают функцию генов», — говорит Жюльен Ганьер из Мюнхенского технического университета.
Следующим шагом является интеграция DeepRVAT в инфраструктуру Немецкого архива феноменов генома человека (GHGA) для упрощения применения в диагностике и фундаментальных исследованиях. Еще одним преимуществом DeepRVAT является то, что метод требует значительно меньше вычислительной мощности, чем сопоставимые модели. DeepRVAT доступен как удобный для пользователя программный пакет, который можно использовать с предварительно обученными моделями оценки риска или обучать с помощью собственных наборов данных исследователей для специализированных целей.