Версия модели для API будет доступна с контекстными окнами до 1 миллиона токенов, что является самым большим контекстным окном, когда-либо предлагавшимся OpenAI.
OpenAI также подчеркнула улучшенную эффективность токенов, заявив, что GPT-5.4 смогла решать те же задачи, используя значительно меньше токенов, чем ее предшественник.
Новая модель демонстрирует значительно улучшенные результаты в бенчмарках, включая рекордные показатели в тестах на использование компьютера OSWorld-Verified и WebArena Verified. Новая модель также показала рекордные 83% в тесте GDPval от OpenAI для задач, связанных с интеллектуальным трудом.
GPT-5.4 также вышла на первое место в < бенчмарке APEX-Agents от Mercor, разработанном для проверки профессиональных навыков в юриспруденции и финансах, согласно заявлению генерального директора Mercor Брендана Фуди.
«[GPT-5.4] превосходно справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ», — заявил Фуди в своем заявлении, — «демонстрируя высочайшую производительность при более высокой скорости и меньшей стоимости по сравнению с конкурирующими передовыми моделями».
GPT-5.4 продолжает усилия компании по ограничению галлюцинаций и фактических ошибок. OpenAI сообщила, что новая модель на 33% реже допускала ошибки в отдельных утверждениях по сравнению с GPT 5.2, а общие ответы содержали на 18% меньше ошибок.
В рамках запуска OpenAI переработала способ управления вызовом инструментов в API-версии GPT-5.4, внедрив новую систему под названием Tool Search (Поиск инструментов). Ранее системные промпты содержали определения всех доступных инструментов при вызове модели — процесс, который мог потреблять много токенов по мере роста числа доступных инструментов. Новая система позволяет моделям искать определения инструментов по мере необходимости, что приводит к более быстрым и дешевым запросам в системах с большим количеством доступных инструментов.
OpenAI также включила < новую оценку безопасности для проверки цепочки рассуждений (chain-of-thought) своих моделей — текущего комментария, который модели предоставляют для демонстрации процесса мышления при выполнении многоэтапных задач. Исследователи в области безопасности ИИ давно обеспокоены тем, что модели рассуждений могут искажать свою цепочку рассуждений, и < тестирование показывает, что это может произойти при определенных условиях.
Новая оценка OpenAI показывает, что обман менее вероятен в версии GPT-5.4 с функцией “мышления” (Thinking version), «что предполагает отсутствие у модели способности скрывать свои рассуждения и то, что мониторинг CoT остается эффективным инструментом безопасности».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Russell Brandom




