Intel AutoRound ускоряет и повышает эффективность квантованных LLM-моделей на GPU Intel и устройствах на базе CUDA, подтверждена поддержка FP8, MXFP8 и MXFP4 в Cresent Island.

intel,autoround,llm,квантизация,gpu,crescent island

Intel представляет AutoRound — новый алгоритм квантизации, ускоряющий работу больших языковых моделей (LLM) на CPU, GPU Intel и CUDA. Crescent Island получит поддержку MXFP8 и MXFP4, что позволит существенно повысить эффективность AI-вычислений.

Технология AutoRound от Intel обеспечивает более быструю и эффективную работу LLM на процессорах и графических процессорах Intel, а Crescent Island готова к поддержке MXFP8 и MXFP4.

Алгоритм Intel AutoRound Ускоряет Работу LLM на Процессорах и GPU Intel, CUDA, Crescent Island Получает Поддержку MXFP8 и MXFP4

Пресс-релиз: Мы рады сообщить, что  AutoRound, современный алгоритм пост-тренировочной квантизации (PTQ), разработанный Intel, теперь интегрирован в  LLM Compressor. Это сотрудничество обеспечивает:

  • Повышенную точность при квантизации с низкой разрядностью
  • Облегчённую настройку (сотни шагов, а не тысячи)
  • Нулевую дополнительную задержку при выводе
  • Бесшовную совместимость с compressed-tensors и прямым обслуживанием в  vLLM
  • Упрощённый рабочий процесс: квантизация и обслуживание моделей всего в несколько строк кода

В ближайшее время будут представлены более широкие схемы квантизации и поддержка большего количества моделей — попробуйте прямо сейчас и помогите нам определить направление развития.

Что такое AutoRound?

AutoRound — это продвинутый алгоритм пост-тренировочной квантизации (PTQ), предназначенный для больших языковых моделей (LLM) и моделей «Видение-Язык» (VLM). Он представляет три обучаемых параметра для каждого квантованного тензора: v (смещение/корректировка округления), α и β (обучаемые элементы управления диапазоном отсечения). Последовательно обрабатывая слои декодера и применяя градиентный спуск со знаком, AutoRound совместно оптимизирует округление и отсечение для минимизации ошибки реконструкции на уровне блоков.

Ключевые преимущества:

  • Превосходная точность, особенно при очень низкой разрядности
  • Поддержка нескольких типов данных: W4A16, MXFP8, MXFP4, FP8, NVFP4 и других
  • Смешанная точность, поиск точности на уровне слоев для гибкого баланса между точностью и эффективностью
  • Применимость как для LLM, так и для VLM

AutoRound позволяет использовать квантованные модели в различных форматах с низкой разрядностью, разработанных для ускорения вывода на  процессорах Intel Xeon, ускорителях Intel Gaudi AI, графических процессорах Intel Data Center, видеокартах Intel Arc B-серии, а также других графических процессорах (например, на базе CUDA).

В будущем Intel добавит встроенную поддержку  FP8, MXFP8 и MXFP4 форматов в свою видеокарту нового поколения Intel Data Center под кодовым названием Crescent Island. Модели, квантованные с помощью AutoRound, естественно масштабируются для использования этих типов данных во всем портфеле оборудования Intel AI. Это создает последовательный путь от алгоритмических инноваций к реальному развертыванию.