Когда я разговаривал с Майклом, меня особенно поразила одна идея, о которой я раньше не слышал. По его словам, модели ИИ одновременно преодолевают три рубежа: чистый интеллект, время отклика и третье качество, которое меньше связано с чистой мощностью, чем с затратами — способность модели быть достаточно дешевой для развертывания в массовом, непредсказуемом масштабе. Это новый взгляд на возможности моделей, особенно ценный для тех, кто пытается направить передовые модели в новом направлении.
Это интервью было отредактировано для сокращения и ясности.
Не могли бы вы начать с того, что расскажете о своем опыте работы в области ИИ на данный момент и о том, чем вы занимаетесь в Google?
Я работаю в сфере ИИ около двух лет. Полтора года я проработал в Anthropic, а в Google я почти полгода. Я руковожу Vertex, платформой для разработчиков Google. Большинство наших клиентов — это инженеры, создающие собственные приложения. Им нужен доступ к агентным паттернам. Им нужна доступ к агентной платформе. Им нужен доступ к инференсу самых умных моделей в мире. Я предоставляю им это, но не сами приложения. Это задача для Shopify, Thomson Reuters и наших различных клиентов в их собственных областях.
Что привлекло вас в Google?
Я думаю, Google уникален в мире тем, что у нас есть всё: от интерфейса до уровня инфраструктуры. Мы можем строить дата-центры. Мы можем покупать электроэнергию и строить электростанции. У нас есть собственные чипы. У нас есть собственная модель. У нас есть контролируемый нами уровень инференса. У нас есть контролируемый нами агентный уровень. У нас есть API для памяти, для чередующегося написания кода. Сверху у нас есть агентный движок, который обеспечивает соответствие требованиям и управление. А затем у нас даже есть чат-интерфейс с Gemini enterprise и Gemini chat для потребителей, верно? Так что одна из причин, по которой я пришел сюда, заключается в том, что я увидел в Google уникальную вертикальную интеграцию, и это наша сила.
Странно, потому что, несмотря на все различия между компаниями, кажется, что все три крупные лаборатории действительно близки по возможностям. Это просто гонка за большим интеллектом, или всё сложнее?
Я вижу три границы. Модели вроде Gemini Pro настроены на чистый интеллект. Подумайте о написании кода. Вы просто хотите получить лучший код, неважно, займет ли это 45 минут, потому что мне придется его поддерживать, мне придется внедрять его в продакшн. Мне просто нужно самое лучшее.
Затем есть еще одна граница, связанная с задержкой. Если я занимаюсь поддержкой клиентов и мне нужно знать, как применить политику, вам нужен интеллект, чтобы применить эту политику. Разрешено ли вам совершить возврат? Могу ли я повысить класс своего места в самолете? Но неважно, насколько вы правы, если ответ занял 45 минут. Поэтому в таких случаях вам нужен самый интеллектуальный продукт в рамках этого бюджета задержки, потому что больше интеллекта уже не имеет значения, как только этот человек заскучает и повесит трубку.
И затем есть последняя категория, где кому-то вроде Reddit или Meta* нужно модерировать весь интернет. У них большие бюджеты, но они не могут взять на себя корпоративный риск, если не знают, как это масштабируется. Они не знают, сколько ядовитых постов будет сегодня или завтра. Поэтому им приходится ограничивать свой бюджет моделью с самым высоким уровнем интеллекта, который они могут себе позволить, но в масштабируемой форме для бесконечного числа объектов. И для этого стоимость становится очень, очень важной.
Один из вопросов, над которым я ломал голову, заключается в том, почему агентные системы так долго приживаются. Кажется, модели уже готовы, и я видел невероятные демонстрации, но мы не видим тех масштабных изменений, которых я ожидал год назад. Что, по вашему мнению, сдерживает это?
Этой технологии, по сути, два года, и все еще не хватает инфраструктуры. У нас нет паттернов для аудита того, что делают агенты. У нас нет паттернов для авторизации данных для агента. Есть такие паттерны, над которыми потребуется поработать, чтобы внедрить их в продакшн. А продакшн всегда является запаздывающим индикатором того, на что способна технология. Так что двух лет недостаточно, чтобы увидеть, что интеллект поддерживает в продакшне, и именно здесь люди испытывают трудности.
Я думаю, что в разработке программного обеспечения это продвинулось уникально быстро, потому что хорошо вписывается в жизненный цикл разработки программного обеспечения. У нас есть среда разработки, в которой безопасно что-то ломать, а затем мы переходим из среды разработки в тестовую среду. Процесс написания кода в Google требует, чтобы два человека проверяли этот код и оба подтверждали, что он достаточно хорош, чтобы поставить на него бренд Google и предоставить нашим клиентам. Таким образом, у нас есть множество таких процессов с участием человека, которые делают внедрение исключительно низкорисковым. Но нам нужно создать такие паттерны в других местах и для других профессий.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Russell Brandom




