MIT Technology Review объясняет: наши авторы распутают сложный и запутанный мир технологий, чтобы помочь вам понять, что будет дальше. С другими материалами серии можно ознакомиться здесь.
Каждый раз, когда OpenAI, Google или Anthropic выпускают новую передовую большую языковую модель, сообщество ИИ замирает в ожидании. Оно не выдыхает до тех пор, пока METR, некоммерческая организация, занимающаяся исследованиями в области ИИ (сокращение от «Оценка моделей и исследование угроз»), не обновит ставший культовым график, который играет важную роль в дискуссиях об ИИ с момента его первого выпуска в марте прошлого года. График предполагает, что определенные возможности ИИ развиваются экспоненциально, и последние выпуски моделей превзошли эту и без того впечатляющую тенденцию.
Так, например, случилось с Claude Opus 4.5, последней версией самой мощной модели Anthropic, выпущенной в конце ноября. В декабре METR объявила, что Opus 4.5, по-видимому, способен самостоятельно выполнять задачу, которая заняла бы у человека около пяти часов — это огромное улучшение по сравнению с тем, что предсказывала бы даже экспоненциальная тенденция. Один исследователь безопасности Anthropic написал в Твиттере, что изменит направление своих исследований в свете полученных результатов; другой сотрудник компании просто написал: «Мама, забери меня, мне страшно».
Но реальность сложнее, чем предполагают эти драматические реакции. Во-первых, оценки METR способностей конкретных моделей сопровождаются существенными погрешностями. Как METR явно заявила в X, Opus 4.5 может регулярно выполнять только задачи, которые занимают у людей около двух часов, или же он может справляться с задачами, которые требуют до 20 часов. Учитывая неопределенности, присущие методу, точно знать было невозможно.
«Есть множество способов, которыми люди слишком сильно интерпретируют график», — говорит Сидни Вон Аркс, сотрудник технического отдела METR.
Более того, график METR измеряет не общие способности ИИ и не претендует на это. Чтобы построить график, METR тестирует модели в основном на задачах программирования, оценивая сложность каждой путем измерения или оценки времени, которое требуется человеку для ее выполнения — метрика, с которой согласны не все. Claude Opus 4.5 может выполнять определенные задачи, которые занимают у людей пять часов, но это не значит, что он близок к замене работника.
METR была основана для оценки рисков, связанных с передовыми системами ИИ. Хотя организация наиболее известна своим графиком экспоненциального тренда, она также сотрудничала с ИИ-компаниями для более детальной оценки их систем и опубликовала несколько других независимых исследовательских проектов, включая широко освещенное исследование июля 2025 года, предполагающее, что ИИ-помощники в программировании могут фактически замедлять разработчиков программного обеспечения.
Но экспоненциальный график сделал репутацию METR, и у организации, похоже, сложные отношения с часто восторженным приемом этого графика. В январе Томас Ква, один из ведущих авторов статьи, представившей его, написал пост в блоге, отвечая на некоторые критические замечания и четко излагая ограничения. В настоящее время METR работает над более подробным документом с часто задаваемыми вопросами. Но Ква не оптимистичен относительно того, что эти усилия существенно изменят дискурс. «Я думаю, что машина хайпа, независимо от того, что мы сделаем, просто отбросит все оговорки», — говорит он.
Тем не менее, команда METR считает, что график имеет что-то значимое сказать о траектории развития ИИ. «Вы абсолютно не должны привязывать свою жизнь к этому графику», — говорит Вон Аркс. «Но также», — добавляет она, — «я готова поспорить, что эта тенденция сохранится».
Часть проблемы с графиком METR заключается в том, что он гораздо сложнее, чем кажется. Ось X достаточно проста: она отслеживает дату выпуска каждой модели. Но ось Y — это то, где все становится сложным. Она записывает «временной горизонт» каждой модели, необычную метрику, созданную METR, и которая, по словам Ква и Вон Аркс, часто неправильно понимается.
Чтобы точно понять, что такое временные горизонты моделей, полезно знать всю работу, которую METR проделала для их расчета. Сначала команда METR собрала коллекцию задач, от быстрых вопросов с множественным выбором до подробных задач по программированию — все они были каким-то образом связаны с разработкой программного обеспечения. Затем они попросили программистов выполнить большинство этих задач и оценили время, которое им потребовалось для их завершения. Таким образом, они присвоили задачам базовое человеческое время.
Когда METR тестировала большие языковые модели на наборе задач, они обнаружили, что передовые модели легко справляются с быстрыми задачами, но по мере того, как модели пытались решать задачи, на выполнение которых у людей уходило все больше времени, их точность начинала снижаться. На основе производительности модели исследователи рассчитали точку на временной шкале человеческих задач, при которой модель успешно выполняла бы около 50% задач. Эта точка и является временным горизонтом модели.
Все эти детали приведены в посте в блоге и научной статье, которые METR опубликовала вместе с первоначальным графиком временных горизонтов. Но график METR часто распространяется в социальных сетях без этого контекста, и поэтому истинный смысл метрики временного горизонта может затеряться. Одно из распространенных заблуждений заключается в том, что числа на оси Y графика — около пяти часов для Claude Opus 4.5, например — представляют собой время, в течение которого модели могут работать независимо. Это не так. Они представляют собой время, которое требуется людям для выполнения задач, с которыми модель может успешно справиться. Ква видел эту ошибку так часто, что счел нужным исправить ее в самом начале своего недавнего поста в блоге, и, когда его спросили, какую информацию он добавил бы к циркулирующим в Интернете версиям графика, он сказал, что добавил бы слово «человеческий» всякий раз, когда упоминалось бы время выполнения задачи.
Несмотря на всю сложность и широкое неверное толкование концепции временного горизонта, она имеет некоторый базовый смысл: модель с часовым временным горизонтом могла бы автоматизировать некоторые скромные части работы разработчика программного обеспечения, в то время как модель с 40-часовым горизонтом потенциально могла бы самостоятельно выполнять работу в течение нескольких дней. Но некоторые эксперты сомневаются, является ли время, которое люди тратят на задачи, эффективной метрикой для количественной оценки возможностей ИИ. «Я не думаю, что это обязательно факт, что, поскольку что-то занимает больше времени, это будет более сложная задача», — говорит Иниолува Дебора Раджи, аспирантка Калифорнийского университета в Беркли, изучающая оценку моделей.
Вон Аркс говорит, что она тоже изначально скептически относилась к тому, что временной горизонт является правильной мерой. Что ее убедило, так это результаты анализа, проведенного ею и ее коллегами. Когда они рассчитали 50% временной горизонт для всех основных моделей, доступных в начале 2025 года, а затем нанесли каждую из них на график, они увидели, что временные горизонты моделей высшего уровня увеличиваются со временем — и, более того, скорость прогресса ускоряется. Примерно каждые семь месяцев временной горизонт удваивался, что означает, что самые передовые модели могли выполнять задачи, на которые у людей уходило девять секунд в середине 2020 года, 4 минуты в начале 2023 года и 40 минут в конце 2024 года. «Я могу сколько угодно теоретизировать о том, имеет ли это смысл, но тенденция налицо», — говорит Вон Аркс.
Именно этот драматический паттерн сделал график METR таким блокбастером. Многие узнали о нем, прочитав AI 2027, вирусную научно-фантастическую историю, сочетающуюся с количественным прогнозом, предполагающим, что сверхразумный ИИ может уничтожить человечество к 2030 году. Авторы AI 2027 основывали некоторые свои прогнозы на графике METR и широко ссылались на него. По словам Вон Аркс: «Немного странно, когда способ, которым многие люди знакомы с вашей работой, — это эта довольно предвзятая интерпретация».
Конечно, многие ссылаются на график METR, не представляя себе масштабные смерти и разрушения. Для некоторых сторонников ИИ экспоненциальный тренд указывает на то, что ИИ скоро откроет эру радикального экономического роста. Например, венчурная фирма Sequoia Capital недавно опубликовала пост под названием «2026: Это AGI», в котором использовался график METR для аргументации того, что ИИ, способный выступать в качестве сотрудника или подрядчика, скоро появится. «Провокация была примерно такой: «Что вы будете делать, когда ваши планы будут измеряться веками?» — говорит Соня Хуанг, партнер Sequoia и один из авторов поста.
Однако то, что модель достигает часового временного горизонта на графике METR, не означает, что она может заменить один час человеческого труда в реальном мире. Во-первых, задачи, по которым оцениваются модели, не отражают сложности и неопределенности реальной работы. В своем первоначальном исследовании Ква, Вон Аркс и их коллеги количественно оценили то, что они называют «неупорядоченностью» каждой задачи по таким критериям, как знает ли модель точно, как она оценивается, и может ли она легко начать заново, если допустит ошибку (для неупорядоченных задач ответ на оба вопроса будет отрицательным). Они обнаружили, что модели заметно хуже справляются с неупорядоченными задачами, хотя общий паттерн улучшения сохраняется как для упорядоченных, так и для неупорядоченных.
И даже самые неупорядоченные задачи, рассмотренные METR, не могут дать много информации о способности ИИ выполнять большинство работ, поскольку график основан почти исключительно на задачах программирования. «Модель может стать лучше в программировании, но она не станет магически лучше в чем-либо еще», — говорит Дэниел Канг, доцент кафедры компьютерных наук Университета Иллинойса в Урбана-Шампейн. В последующем исследовании Ква и его коллеги действительно обнаружили, что временные горизонты для задач в других областях также, по-видимому, находятся на экспоненциальной траектории, но эта работа была гораздо менее формальной.
Несмотря на эти ограничения, многие восхищаются исследованиями группы. «Исследование METR является одним из наиболее тщательно разработанных исследований в литературе для такого рода работы», — сказал мне Канг. Даже Гэри Маркус, бывший профессор Нью-Йоркского университета и профессиональный критик LLM, описал большую часть работы, проделанной для графика, как «потрясающую» в посте в блоге.
Некоторые люди, несомненно, продолжат интерпретировать график METR как предсказание нашего гибели, вызванной ИИ, но на самом деле это нечто гораздо более банальное: тщательно сконструированный научный инструмент, который придает конкретные числа интуитивному ощущению прогресса ИИ. Как охотно согласятся сотрудники METR, график далеко не идеальный инструмент. Но в новой и быстро развивающейся области даже несовершенные инструменты могут иметь огромную ценность.
«Это группа людей, которые изо всех сил стараются создать метрику в условиях множества ограничений. Она во многом глубоко ошибочна», — говорит Вон Аркс. «Я также думаю, что это одна из лучших вещей в своем роде».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Grace Huckins




