Компания Nous Research выпустила Hermes Mixture of Agents 2.0 (MoA 2.0) — обновление своего фреймворка Hermes Agent с открытым исходным кодом, которое позволяет пользователям объединять несколько ИИ-моделей в единую систему, которая, по утверждению компании, превосходит самые мощные общедоступные на сегодняшний день модели, включая Claude Opus 4.8 и GPT-5.5. Суть проста: вам больше не нужен доступ к одной передовой закрытой модели, если комбинация доступных моделей может ее превзойти.
Что такое Mixture of Agents 2.0?
MoA — это не новая модель, а мультимодельная архитектура. Пользователь настраивает пресет, состоящий из одной или нескольких «референтных моделей» плюс один «агрегатор». Каждая референтная модель независимо анализирует запрос, после чего агрегатор считывает все их выходные данные, синтезирует окончательный ответ и обрабатывает любые вызовы инструментов.
MoA уже существовала в Hermes как переключаемый режим. Главное изменение в версии 2.0 заключается в том, что каждый именованный пресет теперь отображается как выбираемая «виртуальная модель» в списке выбора моделей, прямо рядом с Claude, GPT и Grok, в интерфейсе командной строки (CLI), настольном клиенте и шлюзах, таких как Telegram и Discord. Вы выбираете пресет, как и любую другую модель, и Hermes направляет запрос через эту ансамблевую систему. Команда /moa [запрос] также позволяет выполнить единичный вызов, после которого система возвращается к вашей обычной модели, что полезно только для ресурсоемких задач.
Как комбинация моделей может превзойти лучшую одиночную?
Идея заключается в создании экспертной коллегии. Каждая модель обладает разными сильными сторонами и «слепыми зонами», поэтому, когда несколько моделей независимо анализируют одну и ту же проблему, их ошибки, как правило, не совпадают. Агрегатор затем выступает в роли председателя, взвешивая мнения и составляя ответ, который сильнее, чем мог бы создать любой отдельный участник. Это тот же принцип, что лежит в основе ансамблевых методов в машинном обучении, примененный на уровне целых моделей, а не более мелких компонентов, поэтому хорошая коллегия может превзойти своего самого способного отдельного члена.
Что показывают бенчмарки?
Nous ссылается на свой предстоящий HermesBench. Стандартный пресет с использованием GPT-5.5 и DeepSeek в качестве референтных моделей и Claude Opus 4.8 в качестве агрегатора показал результат 0.8202, по сравнению с 0.7607 для Opus 4.8 по отдельности и 0.7412 для GPT-5.5 по отдельности, что примерно на 8% выше, чем у Opus, и на 11% выше, чем у GPT-5.5. Главный инженер Nous Текниум заявил в X, что команда все еще тестирует комбинации с открытым исходным кодом, стремясь к «выводу уровня Opus при значительно более низкой стоимости».
Важная оговорка — прозрачность. HermesBench еще не полностью открыт, поэтому это внутренние результаты Nous Research, а полная публичная таблица лидеров все еще находится в стадии подготовки. Читателям следует относиться к этим цифрам как к заявлениям самой компании до тех пор, пока не будут опубликованы бенчмарк и его методология.
Каковы технические детали?
Несколько проектных решений заслуживают внимания тех, кто будет внедрять систему. Кэширование промптов сохраняется путем добавления выходных данных референтных моделей в конец последнего хода пользователя, а не вставки их в середину истории, что обеспечивает стабильный префикс контекста для попадания в кэш и сдерживает расходы. Вложенный MoA запрещен: агрегатор не может быть другим пресетом, что исключает рекурсивное смешивание и связанные с ним проблемы с затратами и отладкой. Прозрачность рассуждений обеспечивается тем, что полные выходные данные каждой референтной модели отображаются в виде отдельного помеченного блока, позволяя читать GPT, Claude и Grok по отдельности, прежде чем агрегатор выдаст финальный ответ. Полный доступ к инструментам зарезервирован для агрегатора, в то время как референтные модели получают упрощенный диалог, лишенный системных промптов и истории инструментов, чтобы сократить расходы и избежать отказов на уровне провайдера от более строгих сервисов.
Почему это выпускается сейчас?
Время выпуска не случайно. 12 июня директива США по экспортному контролю вынудила Anthropic приостановить работу Fable 5 и Mythos 5 для всех пользователей по всему миру; запрет был снят только 1 июля после 19-дневного простоя, в то время как доступ к ведущим моделям в целом стал дороже и ограничен по скорости. Nous построила свое сообщение вокруг этой реальности. В своем анонсе компания написала, что «самые мощные модели ограничены в доступе, доступны лишь немногим», и представила MoA 2.0 как альтернативу: вместо того чтобы зависеть от одной ограниченной супермодели, соберите доступные модели в систему, которая превосходит их.
В чем подвох?
MoA дорог. Каждый вызов умножает использование токенов примерно на количество референтных моделей, поэтому Nous рекомендует использовать его только для «тех 10% задач, которым больше всего нужно качество», а не для каждого взаимодействия. Текниум утверждает, что проблема стоимости резко снизится, как только комбинации моделей с открытым исходным кодом смогут соответствовать качеству проприетарных, что устранит необходимость маршрутизации через дорогие передовые API. MoA 2.0 был выпущен как основная функция Hermes Agent v0.17.0 19 июня и доработан в «Релизе Суждения» от 1 июля, v0.18.0, с более детальным сохранением трассировки и усилением безопасности.
Часто задаваемые вопросы
Что такое Hermes MoA 2.0?
Hermes Mixture of Agents 2.0 — это обновление фреймворка Hermes Agent с открытым исходным кодом от Nous Research, которое позволяет пользователям объединять несколько ИИ-моделей в единую систему. Несколько «референтных моделей» независимо анализируют запрос, затем модель «агрегатор» синтезирует окончательный ответ, а пресет отображается как выбираемая виртуальная модель.
Действительно ли комбинация моделей превосходит одну передовую модель?
Nous утверждает, что да, ссылаясь на свой HermesBench, где пресет показал результат примерно на 8% выше, чем Claude Opus 4.8, и на 11% выше, чем GPT-5.5. Однако HermesBench еще не опубликован, поэтому это внутренние результаты компании, и независимая проверка пока недоступна.
Почему мне следует использовать MoA вместо одной модели?
Он может давать более качественные ответы, объединяя сильные стороны нескольких моделей, и снижает зависимость от одного поставщика, что важно, поскольку ведущие модели сталкиваются с ограничениями доступа и ростом цен. Обратная сторона — значительно большее использование токенов за один вызов.
Сколько стоит запуск MoA?
Каждый вызов использует примерно во столько же раз больше токенов, сколько референтных моделей, поэтому он значительно дороже, чем использование одной модели. Nous рекомендует использовать его только для задач, наиболее чувствительных к качеству, и ожидает, что затраты снизятся по мере совершенствования комбинаций с открытым исходным кодом.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Jerry Owens




