Google Research во вторник опубликовала TurboQuant — алгоритм сжатия без обучения, который квантует KV-кэши больших языковых моделей (LLM) до 3 бит без какой-либо потери точности модели. В тестах на графических процессорах Nvidia H100 4-битный TurboQuant обеспечил прирост производительности до восьми раз при вычислении логитов внимания по сравнению с неквантованными 32-битными ключами, одновременно сократив память KV-кэша как минимум в шесть раз. KV-кэши хранят ранее вычисленные данные внимания, чтобы LLM не приходилось пересчитывать их на каждом шаге генерации токенов. Эти кэши становятся главными узкими местами по памяти по мере увеличения контекстных окон, и хотя традиционные методы векторного квантования могут уменьшить размер этих кэшей, они вносят небольшие накладные расходы на память в виде нескольких дополнительных бит на значение от констант квантования, которые необходимо хранить вместе со сжатыми данными. Это кажется незначительным, но эти расходы накапливаются вместе с увеличением контекстных окон. TurboQuant устраняет эти накладные расходы с помощью двухэтапного процесса. Первый использует метод под названием PolarQuant, который преобразует векторы данных из стандартных декартовых координат в полярные. Это разделяет каждый вектор на радиус (представляющий величину) и набор углов (представляющих направление). Поскольку угловые распределения предсказуемы и сконцентрированы, PolarQuant пропускает дорогостоящий шаг нормализации для каждого блока, который требуется обычным квантователям. Это приводит к высококачественному сжатию с нулевыми накладными расходами от хранимых констант квантования. Второй этап применяет слой коррекции ошибок в 1 бит с использованием алгоритма Quantized Johnson-Lindenstrauss (QJL). QJL проецирует остаточную ошибку квантования в пространство меньшей размерности и сводит каждое значение к одному биту знака, устраняя систематическую погрешность в вычислениях оценок внимания с незначительными дополнительными затратами. Google протестировала все три алгоритма в бенчмарках с длинным контекстом, включая LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval, используя открытые модели Gemma и Mistral. TurboQuant достиг идеальных результатов в задачах извлечения информации типа «иголка в стоге сена», сжав память KV как минимум в шесть раз. В наборе LongBench, охватывающем ответы на вопросы, генерацию кода и суммаризацию, TurboQuant соответствовал или превосходил базовый уровень KIVI по всем задачам. Алгоритм также показал сильные результаты в векторном поиске. При оценке по сравнению с Product Quantization и RabbiQ на наборе данных GloVe TurboQuant достиг самых высоких показателей отзыва 1@k, несмотря на то, что эти базовые методы полагались на более крупные кодовые книги и настройку под конкретный набор данных. Google отметила, что TurboQuant не требует обучения или тонкой настройки и вносит незначительные накладные расходы во время выполнения, что делает его подходящим для развертывания в производственных системах инференса и крупномасштабных системах векторного поиска. Статья, соавторами которой являются научный сотрудник Амир Зандие (Amir Zandieh) и вице-президент Вахаб Миррокни (Vahab Mirrokni), будет представлена на ICLR 2026 в следующем месяце.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Luke James




