Когда речь заходит о стоимости инфраструктуры ИИ, обычно акцент делают на Nvidia и GPU — но память становится всё более важной частью картины. Пока гипермасштабные провайдеры готовятся инвестировать миллиарды долларов в новые дата‑центры, цена на микросхемы DRAM выросла примерно в 7 раз за последний год.
В то же время развивается дисциплина по оркестровке всей этой памяти, чтобы нужные данные попадали к нужному агенту в нужный момент. Компании, которым это под силу, смогут выполнять те же запросы, используя меньше токенов, что может стать разницей между банкротством и выживанием.
Полупроводниковый аналитик Дэн О’Лафлин предлагает интересный взгляд на важность микросхем памяти в своём Substack, где он беседует с Валом Берковичем, chief AI officer в Weka. Оба они — специалисты по полупроводникам, поэтому внимание сосредоточено больше на чипах, чем на более широкой архитектуре; последствия для программного обеспечения ИИ также весьма значимы.
Меня особенно поразил следующий отрывок, в котором Беркович рассматривает растущую сложность документации Anthropic по prompt‑caching:
Сигнал — это страница ценообразования Anthropic по кэшированию запросов. Шесть‑семь месяцев назад она была очень простой, особенно когда запускался Claude Code — просто «используйте кэш, это дешевле». Сейчас это уже энциклопедия советов, сколько именно записей в кэш предоплатить. Есть 5‑минутные уровни, которые распространены в отрасли, и 1‑часовые уровни — и ничего выше. Это важный сигнал. Затем, конечно, появляются различные арбитражные возможности вокруг цены чтения кэша в зависимости от того, сколько записей в кэш вы уже предкупили.
Вопрос здесь — насколько долго Claude удерживает ваш запрос в кэш‑памяти: можно оплатить 5‑минутное окно или заплатить больше за часовое. Доступ к данным, остающимся в кэше, гораздо дешевле, так что при правильном управлении можно сэкономить огромные суммы. Есть подводный камень: каждый новый кусок данных, добавленный к запросу, может вытеснить что‑то другое из окна кэша.
Это сложная тема, но вывод прост: управление памятью в моделях ИИ станет ключевым фактором развития ИИ. Компании, которые освоят её, займут лидирующие позиции.
И в этой новой сфере ещё много возможностей. В октябре я писал о стартапе TensorMesh, работающем над слоем стека, известным как оптимизация кэша.
Возможности есть и в других частях стека. Например, ниже по стеку стоит вопрос, как дата‑центры используют различные типы памяти. (В интервью есть интересное обсуждение, когда используют DRAM вместо HBM, хотя это довольно глубокое погружение в детали железа.) Выше по стеку конечные пользователи ищут способы структурировать свои «ройки» моделей, чтобы воспользоваться общим кэшем.
По мере того как компании совершенствуют оркестровку памяти, им потребуется меньше токенов, а инференс станет дешевле. Тем временем модели становятся эффективнее в обработке каждого токена, что ещё сильнее снижает стоимость. По мере снижения цен на серверы многие приложения, пока невыгодные, начнут двигаться к прибыльности.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Russell Brandom




