Крупная геномная модель: ИИ с открытым исходным кодом, обученный на триллионах оснований, для аппаратного обеспечения

John Timmer

05.03.2026

ии геном нейросеть открытый код биоинформатика arstechnica.com

Система ИИ Evo 2, обученная на триллионах оснований, способна идентифицировать гены, регуляторные последовательности, сайты сплайсинга и многое другое в геномах всех доменов жизни. — arstechnica.com

В конце 2025 года мы освещали разработку системы искусственного интеллекта под названием Evo, которая обучалась на огромном количестве бактериальных геномов. Их было так много, что при получении запроса с последовательностями из кластера родственных генов система могла правильно определить следующий ген или предложить совершенно новый белок.

Эта система работала благодаря тому, что бактерии склонны группировать родственные гены вместе — чего нельзя сказать об организмах со сложными клетками, которые, как правило, имеют столь же сложные геномные структуры. Учитывая это, в нашем обзоре отмечалось: «Неясно, сработает ли этот подход с более сложными геномами».

Похоже, команда, стоявшая за Evo, восприняла это как вызов, поскольку сегодня они представляют Evo 2 — систему ИИ с открытым исходным кодом, которая была обучена на геномах всех трех доменов жизни (бактерии, археи и эукариоты). После обучения на триллионах пар оснований ДНК Evo 2 выработала внутренние представления ключевых признаков даже в таких сложных геномах, как наш, включая такие элементы, как регуляторная ДНК и сайты сплайсинга, которые людям бывает трудно обнаружить.

Признаки генома

Бактериальные геномы организованы по относительно простым принципам. Любые гены, кодирующие белки или РНК, являются непрерывными, без прерываний в кодирующей последовательности. Гены, выполняющие схожие функции, например, метаболизирующие сахар или производящие аминокислоту, имеют тенденцию группироваться вместе, что позволяет управлять ими с помощью единой компактной регуляторной системы. Все это прямолинейно и эффективно.

Эукариоты устроены иначе. Кодирующие участки генов прерываются интронами, которые ничем не кодируют. Они регулируются последовательностью, которая может быть разбросана на сотни тысяч пар оснований. Последовательности, определяющие границы интронов или сайты связывания регуляторных белков, слабо определены — хотя у них есть несколько абсолютно необходимых оснований, существует множество оснований, которые просто имеют выше среднего тенденцию быть определенным основанием (что-то вроде «в 45 процентах случаев это Т»). Окружает все это в большинстве эукариотических геномов огромное количество ДНК, которую называют «мусорной»: неактивные вирусы, терминально поврежденные гены и так далее.

Эта сложность затруднила интерпретацию эукариотических геномов. И хотя было разработано множество специализированных инструментов для идентификации таких элементов, как сайты сплайсинга, все они в достаточной степени подвержены ошибкам, что становится проблемой при анализе чего-то столь же крупного, как геном длиной в 3 миллиарда оснований. Мы можем узнать гораздо больше, проводя эволюционные сравнения и ища консервативные последовательности, но у этого есть свои пределы, и нас часто интересуют различия между видами.

Однако такие статистические вероятности хорошо подходят для нейронных сетей, которые отлично распознают тонкие закономерности, невидимые невооруженным глазом. Но для обработки и выявления этих тонких признаков потребуется абсолютно огромное количество данных и вычислительного времени.

Теперь у нас есть необработанные геномные данные, необходимые для этого процесса. Однако создание системы для подачи этих данных в эффективную программу обучения ИИ оставалось проблемой. Эту задачу и взялась решить команда, стоявшая за Evo.

Обучение большой геномной модели

Основой системы Evo 2 является сверточная нейронная сеть под названием StripedHyena 2. Обучение проходило в два этапа. Начальный этап был сосредоточен на обучении системы определять важные геномные признаки путем подачи ей последовательностей, богатых этими признаками, фрагментами длиной около 8000 оснований. После этого последовал второй этап, на котором последовательности подавались по миллиону оснований за раз, чтобы дать системе возможность выявить крупномасштабные геномные признаки.

Исследователи обучили две версии своей системы, используя набор данных OpenGenome2, который содержит 8,8 триллиона оснований из всех трех доменов жизни, а также вирусов, инфицирующих бактерии. Они не включали вирусы, поражающие эукариоты, поскольку опасались, что система может быть использована во вред для создания угроз для человека. Были обучены две версии: одна с 7 миллиардами параметров, настроенных с использованием 2,4 триллиона оснований, и полная версия с 40 миллиардами параметров, обученная на полном наборе открытых геномов.

Логика обучения довольно проста: если что-то достаточно важно, чтобы быть эволюционно консервативным во многих видах, оно будет проявляться в различных контекстах, и система должна видеть это многократно во время обучения. «Изучая вероятность последовательностей в обширных эволюционных наборах данных, модели биологических последовательностей улавливают консервативные паттерны последовательностей, которые часто отражают функциональную значимость», — пишут исследователи, стоящие за этой работой. «Эти ограничения позволяют моделям выполнять предсказание с нулевым выстрелом (zero-shot prediction) без какой-либо специфической донастройки или надзора».

Последний аспект важен. Мы могли бы, например, сообщить системе о том, как выглядят известные сайты сплайсинга, что могло бы помочь ей выявить дополнительные. Но это может затруднить распознавание любых необычных сайтов сплайсинга, которые мы еще не обнаружили. Пропуск донастройки также может помочь ей выявить геномные признаки, о которых мы в настоящее время даже не подозреваем, но которые могут проявиться в ходе будущих исследований.

Все это теперь стало доступно общественности. «Мы сделали Evo 2 полностью открытой, включая параметры модели, код обучения, код вывода и набор данных OpenGenome2», — говорится в статье.

Исследователи также использовали систему, способную выявлять внутренние признаки в нейронных сетях, чтобы изучить внутреннее устройство Evo 2 и понять, что она научилась распознавать. Они обучили отдельную нейронную сеть распознавать паттерны активации в Evo 2 и идентифицировать в ней высокоуровневые признаки. Она четко распознавала белок-кодирующие области и границы окружающих их интронов. Она также смогла распознать некоторые структурные признаки белков внутри кодирующих областей (альфа-спирали и бета-листы), а также мутации, нарушающие их кодирующую последовательность. Даже такие элементы, как мобильные генетические элементы (которые можно рассматривать как паразитов на уровне ДНК), нашли свое отражение в виде признака внутри Evo 2.

Для чего это нужно?

Чтобы протестировать систему, исследователи начали вносить однонуклеотидные мутации и подавать их в Evo 2, чтобы увидеть ее реакцию. Evo 2 могла обнаруживать проблемы, когда мутации затрагивали участки ДНК, где начинается транскрипция в РНК, или участки, где начинается трансляция этой РНК в белок. Она также распознавала серьезность мутаций. Те, которые прерывали трансляцию белка, например, введение стоп-сигналов, были идентифицированы как более значительные изменения, чем те, которые оставляли трансляцию без изменений.

Она также распознавала случаи, когда последовательности не транслировались вовсе. Многие ключевые клеточные функции выполняются непосредственно РНК, и Evo 2 смогла распознать, когда мутации нарушали и их.

Впечатляет то, что способность распознавать признаки в эукариотических геномах проявилась без потери способности распознавать их у бактерий и архей. Фактически, система, похоже, смогла определить, в каком виде организма она работает. Ряд эволюционных групп использует генетические коды с другим набором сигналов для остановки трансляции белков. Evo 2 смогла распознать, когда она работала с последовательностью из одного из таких видов, и использовала для них правильный генетический код.

Она также хорошо распознавала признаки, допускающие большую вариативность, например, сайты, сигнализирующие о том, где сплайсировать РНК для удаления интронов из кодирующей последовательности белков. По некоторым показателям, она превзошла специализированное для этой задачи программное обеспечение. То же самое произошло при оценке мутаций в гене BRCA2, где многие мутации связаны с раком. При дополнительном обучении на известных мутациях BRCA2 ее производительность улучшилась.

В целом, Evo 2 кажется отличным инструментом для оценки геномов и выявления ключевых признаков. Исследователи, создавшие ее, предполагают, что она может служить хорошим автоматизированным инструментом для предварительной аннотации геномов.

Но поразительным моментом в ранней версии Evo было то, что при получении запроса с фрагментом последовательности, включающим известные бактериальные гены, некоторые из ее ответов включали совершенно новые белки со схожими функциями. Теперь, когда она обучена на более сложных эукариотических генах, могла ли она сделать то же самое?

Мы не знаем до конца. При получении набора ДНК дрожжей (эукариота) она отвечала последовательностью, включающей функциональные РНК и подобные генам последовательности с регуляторной информацией и сайтами сплайсинга. Но исследователи не проверяли, выполняют ли какие-либо из белков какую-либо конкретную функцию. И трудно понять, как они могли бы провести такой тест. С бактериальными генами они могли с уверенностью предположить, что сгенерированный ИИ ген должен выполнять функцию, связанную с соседними генами. Но в эукариотах это, как правило, не так, поэтому трудно угадать, какие функции следует проверять.

В несколько более информативном тесте исследователи попросили Evo 2 создать регуляторную ДНК, активную в одном типе клеток и неактивную в другом, после того как предоставили ей информацию о том, какие последовательности активны в обоих типах клеток. Полученные последовательности затем вставляли в эти клетки и тестировали, но результаты были довольно слабыми: только у 17 процентов активность различалась в два раза или более между двумя типами клеток. Это крупное достижение, но оно не сопоставимо с разработкой совершенно новых белков.

Что дальше?

В целом, учитывая, что это появилось менее чем через четыре месяца после публикации статьи об оригинальной Evo, неудивительно, что было проведено не так много работы по проверке того, что Evo 2 может сделать для разработки биологически значимых последовательностей ДНК. Биологические эксперименты сложны и трудоемки, и не всегда легко заранее определить, какие из них дадут наиболее убедительную информацию. Поэтому нам, вероятно, придется ждать месяцы или годы, чтобы узнать, найдет ли сообщество интересные способы использования Evo 2 и сможет ли она решить полезные задачи по дизайну белков.

Существует также вопрос о том, могут ли дальнейшее обучение и специализация создать родственников Evo 2, которые будут особенно хороши в выполнении конкретных задач, таких как оценка геномов раковых клеток или аннотирование недавно секвенированных геномов. В некоторой степени, похоже, исследовательская группа хотела выпустить это, чтобы другие могли начать изучать, как это можно использовать; это согласуется с тем фактом, что все программное обеспечение было предоставлено в открытый доступ.

Главный открытый вопрос заключается в том, выявила ли эта система что-либо, что мы не умеем тестировать. Границы интронов/экзонов и регуляторная ДНК подвергались десятилетиям изучения, поэтому мы уже знали, как их искать, и можем распознать, когда Evo 2 их обнаруживает. Но за последние десятилетия мы обнаружили постоянный поток новых признаков в геноме — повторы CRISPR, микроРНК и многое другое. Технически возможно, что в геноме есть признаки, о которых мы еще не знаем, и Evo 2 их уловила.

Можно представить способы использования описанных здесь инструментов для запроса Evo 2 и выявления новых геномных признаков. Поэтому я с нетерпением жду того, что в конечном итоге может получиться в результате такой работы.

Nature, 2026. DOI: 10.1038/s41586-026-10176-5 (О DOI).

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – John Timmer

Оригинал статьи

В тренде:

arstechnica.com, биоинформатика, геном, ИИ, нейросеть, открытый код

Искать на сайте

Крупная геномная модель: ИИ с открытым исходным кодом, обученный на триллионах оснований, для аппаратного обеспечения

Признаки генома

Обучение большой геномной модели

Для чего это нужно?

Что дальше?

В тренде:

Похожие новости:

Крупная геномная модель: ИИ с открытым исходным кодом, обученный на триллионах оснований, для аппаратного обеспечения

Признаки генома

Обучение большой геномной модели

Для чего это нужно?

Что дальше?

В тренде:

Похожие новости:

Великобритания выделяет 60 миллионов фунтов на лаборатории ИИ, чтобы бросить

WeChat запускает тестирование нативного ИИ-ассистента Xiaowei для 1,4 миллиарда пользователей

Новый GPT-5.5-Cyber от OpenAI обошел Claude Mythos 5 в бенчмарке

«Пять глаз» предупреждают ИБ-директоров: пора менять стратегию кибербезопасности под угрозой