Подробности были скудными, и многие остались неубежденными. Однако Subquadratic начала предоставлять доказательства, поделившись результатами независимой оценки своей новой технологии. Результаты свидетельствуют о том, что к заявлениям компании стоит прислушаться.
По утверждению Subquadratic, она разработала новый тип LLM под названием SubQ, который быстрее, дешевле и потребляет значительно меньше энергии, чем любая другая модель на рынке. Компания также заявляет, что SubQ способна обрабатывать до 12 раз больше текста одновременно, чем большинство других моделей, что позволяет ей выполнять ряд ресурсоемких задач, таких как анализ сотен документов или целых баз кода.
Более того, Subquadratic заявляет, что SubQ делает это, демонстрируя производительность, сопоставимую с лучшими моделями от Google DeepMind, OpenAI и Anthropic на ключевых задачах, таких как кодирование.
Проблема заключалась в том, что изначально компания предоставила мало доказательств своих заявлений, кроме нескольких самостоятельно опубликованных результатов тестов. И она еще не сделала SubQ широко доступной для самостоятельного опробования.
Поэтому неудивительно, что заявления Subquadratic встретили со скептицизмом. Инженер искусственного интеллекта Дэн Макатир зафиксировал общую реакцию в X: «SubQ — это либо величайший прорыв со времен Transformer… либо это AI Theranos» (ИИ-версия Theranos).
Спустя месяц компания опубликовала больше информации о своей модели, включая результаты дополнительных независимых тестов, проведенных сторонней фирмой Appen.
«Мы ожидали здорового скептицизма», — говорит соучредитель и технический директор Subquadratic Алекс Уэдон. «Оглядываясь назад, публикация сторонних бенчмарков одновременно с первоначальным анонсом предотвратила бы большую часть скептицизма, поэтому мы тратим время, чтобы убедиться, что любые будущие результаты будут полностью проверены, прежде чем их обнародовать».
Subquadratic попросила Appen, которая оценивает модели других компаний, провести тесты на SubQ. Результаты, похоже, подтверждают многие заявления Subquadratic. «Это меня по-настоящему взволновало, это подтвердило их архитектуру», — говорит Джиннин Синанан-Сингх, директор Appen по исследованиям генеративного ИИ.
«Я подумала: „Ух ты, это может изменить правила игры“, потому что модели испытывают трудности со скоростью и неэффективностью», — добавляет она. «Но когда у вас есть шокирующие результаты, это не так убедительно, когда вы говорите об этом сами».
SubQ не заменит существующие лучшие модели во всех отношениях, но она может обеспечить огромный прирост скорости при доле типичных затрат для определенных задач. Subquadratic настаивает, что в долгосрочной перспективе ее прорыв может изменить подход к построению LLM. «Мы надеемся, что запускаем новую эру эффективности», — говорит Джастин Дангел, соучредитель и генеральный директор фирмы. «Мы не думаем, что через несколько лет кто-либо будет строить на основе трансформеров».
Внимание!
Чтобы понять, почему заявления Subquadratic важны, давайте углубимся в то, как работают большинство LLM. Ключевым механизмом внутри LLM является тип нейронной сети, называемый трансформером, который выполняет процесс, известный как плотное внимание (dense attention). Современные LLM обычно соединяют вместе несколько трансформеров. (Основополагающая статья эпохи LLM, опубликованная исследователями Google в 2017 году, называлась «Attention Is All You Need».)
Плотное внимание работает следующим образом: когда трансформер обрабатывает фрагмент текста, он сначала кодирует каждое слово (или часть слова, известную как токен) числом. Чтобы уловить смысл всего текста, он затем умножает каждое из этих чисел на каждое другое число для этого текста. Например, фрагмент текста длиной 10 000 слов инициирует почти 50 миллионов отдельных умножений. Это огромный объем вычислений, и это основная причина, по которой LLM печально известны как «пожиратели энергии».
«Если вы хотите обобщить „Великого Гэтсби“, вам нужно рассмотреть первое и последнее слово вместе, а затем вам нужно рассмотреть каждую другую комбинацию», — говорит Дангел.
По мере увеличения длины текста количество вычислений стремительно растет. Это связано с тем, что каждое дополнительное число должно быть умножено на все остальные предыдущие числа. Удвоение количества слов примерно удваивает количество вычислений — такой темп роста известен как квадратичное расширение.
(Вы можете представить это сами: нарисуйте круг и отметьте точки по его краю. Каждая точка — это токен. Затем проведите линии между парами точек, чтобы обозначить умножение этих двух токенов. Круг с пятью точками будет иметь 10 линий, пересекающих его. Сделайте 10 точек, и у вас будет 45 линий, 20 точек — 190 линий, и так далее.)
Сокращение затрат
Решение Subquadratic заключается в отказе от плотного внимания, основной операции трансформера, в пользу того, что известно как разреженное внимание (sparse attention), которое резко сокращает количество необходимых вычислений. Вместо того чтобы умножать число, присвоенное каждому токену, на каждое другое число, разреженное внимание выбирает только некоторые из этих чисел для умножения. Идея состоит в том, что не все взаимосвязи между словами в тексте имеют значение.
«Разреженное внимание говорит, что не все эти взаимосвязи важны, потому что это правда», — говорит Уэдон. «Если вы читаете книгу, вы не будете смотреть на первое и второе слово, первое и третье — это безумие».
Это простой подход, и Subquadratic не первая, кто его пробовал. «Было предпринято практически все, что только можно», — говорит Уилл Депью, независимый исследователь ИИ, ранее работавший в OpenAI. «Это не невозможно, но это сродни пробежать милю за четыре минуты».
Предыдущие методы выбора того, какие числа умножать, а какие игнорировать, не смогли создать механизм, который мог бы уловить смысл документа так же хорошо, как плотное внимание.
Subquadratic заявляет, что наконец-то решила эту проблему. Она позиционирует SubQ как первую LLM с разреженным вниманием, которая не уступает по производительности основным моделям с плотным вниманием.
«Исторически большинство механизмов использовали фиксированные шаблоны, например, всегда сравнивали первое слово с пятым», — говорит Уэдон. «Это довольно ограничивает. Язык слишком сложен для этого. И поэтому одна из особенностей нашего механизма заключается в том, что мы динамически выбираем, какие из них важны».
Фирма не раскрывает, как именно SubQ выбирает, на каких словах сосредоточиться, но выбор рассчитывается на лету и отличается для каждого фрагмента текста, который получает модель. «В этом и заключается секретный соус», — говорит Уэдон.
Тестирование, тестирование
В результате для определенных задач SubQ может работать быстрее и дешевле, чем большинство других моделей. Appen оценила SubQ по нескольким стандартным тестам. В прямом тесте на скорость, который устанавливает базовый уровень того, насколько быстро модель может работать в теории, а не оценивает, что модель может делать на самом деле, Appen обнаружила, что SubQ работает в 56 раз быстрее, чем модели, использующие FlashAttention, предыдущую технику разреженного внимания.
В LiveCodeBench, тесте, который проверяет, насколько хорошо модели справляются с задачами соревновательного программирования, взятыми из реальных конкурсов, SubQ набрала 89,7%, что ставит ее в тот же диапазон, что и другие ведущие модели для кодирования. «Эта модель продолжает демонстрировать передовую производительность в кодировании», — говорит Синанан-Сингх из Appen.
Заявления Subquadratic о стоимости сложнее проверить, поскольку SubQ еще не получила широкого распространения. По словам Дангела, запуск LLM Opus 4.6 от Anthropic через RULER 128, тест, разработанный Nvidia для оценки способности модели извлекать информацию из больших наборов данных, стоит 2600 долларов. А SubQ? «Нам это обошлось в восемь долларов», — говорит он.
SubQ, похоже, способна обрабатывать очень большие наборы данных. Контекстное окно модели (примерно эквивалент рабочей памяти) достигает 12 миллионов токенов. Большинство современных ведущих моделей имеют контекстные окна длиной в один миллион токенов. В демонстрации, которую Уэдон провел для меня, он попросил SubQ выполнить задачу, требующую анализа информации, содержащейся в 400 документах. Она ответила за секунды. Когда он дал Perplexity — популярному поисковому движку на базе LLM — ту же задачу, он не смог загрузить все 400 документов.
Appen также провела тест «иголка в стоге сена» (needle-in-a-haystack), который оценивает, насколько хорошо модель может извлекать конкретную информацию, зарытую в большом объеме данных. В своем отчете Appen заявляет, что SubQ набрала 98% при длине контекстного окна в шесть и 12 миллионов токенов, «поддерживая почти идеальное извлечение в длинном контексте в масштабах, которые мало какие модели тестируют».
Слишком хорошо, чтобы быть правдой?
Несмотря на высокие баллы, бенчмарки дают неполную картину того, что модель может и чего не может делать. Тестирование в очень специфических условиях не заменяет запуск модели на широком спектре реальных задач.
Subquadratic предлагает SubQ как модель, адаптированную для кодирования и поиска в очень больших наборах данных. Она заявляет, что десятки тысяч потенциальных пользователей уже подписались на ранний доступ, включая более 500 корпоративных клиентов. Но список ожидания длинный, и на данный момент фирма предоставила доступ очень немногим. Ответ Subquadratic заключается в том, что это новая, небольшая компания с ограниченными ресурсами, которая не может обслуживать слишком много людей одновременно.
Пока больше людей не получат модель в свои руки и не опробуют ее самостоятельно, некоторый скептицизм оправдан. Одна назойливая проблема заключается в том, что Subquadratic повторно использовала веса (значения, установленные в модели во время обучения, которые определяют ее поведение) из версии китайской модели с открытым исходным кодом Qwen для запуска SubQ, вместо того чтобы обучать ее с нуля. Это обычная практика для разработчиков моделей, но это противоречит заявлению Subquadratic о том, что она полностью переосмыслила, как работают LLM.
«Возможно, они создали что-то реальное и полезное», — говорит Депью. «Но общедоступных доказательств пока недостаточно, чтобы подтвердить более сильное утверждение о том, что они решили проблему квадратичного внимания».
А пока соучредитель Subquadratic Уэдон настаивает, что создание чего-то иного было для него единственным выходом. Если вы хотите создать конкурентоспособную модель, у вас должны быть новые идеи, говорит он: «У нас больше трудностей, чем у OpenAI».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – technologyreview.com




