В четверг компания OpenAI объявила о разработке большой языковой модели, специально обученной на распространенных биологических рабочих процессах. Модель, названная GPT-Rosalind в честь Розалинд Франклин, по-видимому, отличается от большинства научно-ориентированных моделей крупных технологических компаний, которые, как правило, придерживались более общего подхода, применимого в различных областях.
На брифинге для прессы Юньюнь Ван, руководитель направления продуктов для наук о жизни в OpenAI, заявила, что система была разработана для устранения двух основных препятствий, с которыми сталкиваются современные исследователи в области биологии. Первое — это огромные наборы данных, созданные десятилетиями секвенирования генома и белковой биохимии, которые могут оказаться непосильными для одного исследователя. Второе — это то, что в биологии существует множество узкоспециализированных подобластей, каждая со своими методами и жаргоном. Например, генетик, работающий над геном, активным в клетках мозга, может испытывать трудности с пониманием обширной нейробиологической литературы.
Ван сообщила, что компания взяла LLM и обучила ее на 50 наиболее распространенных биологических рабочих процессах, а также на доступе к основным общедоступным базам биологической информации. Дальнейшее обучение привело к созданию системы, которая может предлагать вероятные биологические пути и определять приоритеты потенциальных мишеней для лекарств. «Мы связываем генотип с фенотипом через известные пути и регуляторные механизмы, выводим вероятные структурные или функциональные свойства белков и действительно используем это механистическое понимание», — сказала Ван.
,
Чтобы противодействовать склонности LLM к угодничеству и чрезмерному энтузиазму, OpenAI заявляет, что настроила модель так, чтобы она была более скептичной, поэтому она с большей вероятностью сообщит, что что-то является плохой мишенью для лекарства. Много говорилось о «рассуждениях» и «экспертном уровне» GPT-Rosalind. Нам сообщили, что первое определялось как способность работать со сложными многоэтапными процессами, в то время как второе было получено на основе производительности модели на нескольких контрольных показателях.
Неясно, решила ли OpenAI проблему галлюцинаций, которая преследует различные LLM и может возникнуть, когда системы просят объяснить шаги, предпринятые компанией для достижения своих выводов. Судя по прошлому опыту, вероятно, мы увидим сочетание восторженных отчетов о неожиданных связях, найденных ИИ, а также случаи, когда он выдает явно ошибочные предложения.
На данный момент, однако, компания ограничивает доступ из-за опасений по поводу потенциала модели для вредоносных результатов, если ее попросят, например, оптимизировать заразность вируса. В настоящее время только организации, базирующиеся в США, могут подать заявку на использование структуры развертывания доверенного доступа OpenAI, и компания ограничит круг пользователей. Более ограниченный плагин для исследований в области наук о жизни будет предоставлен в общем доступе.
Как отмечалось выше, ряд других компаний выпустили агентские LLM, ориентированные на науку, но они были гораздо менее сфокусированы, чем GPT-Rosalind, которая специфична для биологии. Пока мы не начнем получать отчеты об эффективности этой новой модели, трудно оценить, улучшает ли такая сфокусированность ее полезность.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – John Timmer




