Новая биологическая ИИ-модель создает геномы с нуля
В последние годы ученые добились больших успехов в создании мощных «языковых моделей белков». Эти алгоритмы, обученные на миллионах белковых последовательностей, предсказывают структуру белков и создают новые, включая редакторы генов и флуоресцентные молекулы. В отличие от них, Evo-2 обучалась на геномных данных, которые включают как кодирующие последовательности, отвечающие за синтез белков, так и некодирующую ДНК, регулирующую активность генов. Первая версия Evo, выпущенная в прошлом году, тренировалась на геномах 80 000 бактерий, архей (простых организмов, известных как прокариоты), вирусов и других последовательностей.
Новая версия модели основана на 128 000 геномах человека, животных, растений и других эукариотических организмов. Эти геномы содержат в общей сложности 9,3 трлн пар оснований ДНК.
Исходя из вычислительной мощности, необходимой для обработки этих данных, и других характеристик, Evo-2 можно считать крупнейшей на сегодняшний день биологической моделью ИИ.
Геномы эукариот, в отличие от прокариот, длиннее и сложнее: гены состоят из чередующихся кодирующих и некодирующих участков. Некодирующая «регуляторная ДНК» может находиться далеко от генов, которыми она управляет. Evo-2 способен изучать закономерности в последовательностях ДНК на расстоянии до 1 млн пар оснований.
Чтобы продемонстрировать возможности модели в анализе сложных геномов, ученые использовали Evo-2, чтобы оценить влияние уже изученных мутаций в гене BRCA1, связанном с раком молочной железы. Модель показала результаты, сравнимые с лучшими биологическими ИИ-системами в определении патогенности изменений в кодирующих областях. В будущем технология поможет выявлять сложные для интерпретации изменения в геномах пациентов. Исследователи также протестировали модель на других сложных геномах, включая ДНК шерстистого мамонта.
Модель способна создавать новые ДНК-последовательности не только для белков, но и для некодирующих участков, взаимодействующих с ними.
Предыдущая версия, Evo-1, позволила разработать новые CRISPR-редакторы. Исследователи также пытались создать бактериальные и вирусные геномы, но те оказались неполноценными. С Evo-2 результаты стали точнее: она создала геномы на основе Mycoplasma genitalium (первом полностью синтезированном бактериальном геноме), митохондрий человека и хромосом дрожжей длиной 330 000 пар оснований. Эти версии были более реалистичными по сравнению с теми, что генерировал Evo-1, который иногда выдавал последовательности без функциональных белков. Но, по словам ученых, еще есть над чем работать.
Обученный на ДНК всех живых организмов, Evo-2 может использовать знания о бактериальных и архейных геномах для создания новых белков человека. Исследователи планируют проверить ИИ в лабораторных условиях на эмбриональных стволовых клетках мыши. Инструмент доступен научному сообществу через веб-интерфейс, а код, данные и параметры можно скачать. Разработчики надеются, что Evo-2 станет платформой для создания новых биологических инструментов.