Технология AutoRound от Intel обеспечивает более быструю и эффективную работу LLM на процессорах и графических процессорах Intel, а Crescent Island готова к поддержке MXFP8 и MXFP4.
Алгоритм Intel AutoRound Ускоряет Работу LLM на Процессорах и GPU Intel, CUDA, Crescent Island Получает Поддержку MXFP8 и MXFP4
Пресс-релиз: Мы рады сообщить, что AutoRound, современный алгоритм пост-тренировочной квантизации (PTQ), разработанный Intel, теперь интегрирован в LLM Compressor. Это сотрудничество обеспечивает:
- Повышенную точность при квантизации с низкой разрядностью
- Облегчённую настройку (сотни шагов, а не тысячи)
- Нулевую дополнительную задержку при выводе
- Бесшовную совместимость с compressed-tensors и прямым обслуживанием в vLLM
- Упрощённый рабочий процесс: квантизация и обслуживание моделей всего в несколько строк кода
В ближайшее время будут представлены более широкие схемы квантизации и поддержка большего количества моделей — попробуйте прямо сейчас и помогите нам определить направление развития.
Что такое AutoRound?
AutoRound — это продвинутый алгоритм пост-тренировочной квантизации (PTQ), предназначенный для больших языковых моделей (LLM) и моделей «Видение-Язык» (VLM). Он представляет три обучаемых параметра для каждого квантованного тензора: v (смещение/корректировка округления), α и β (обучаемые элементы управления диапазоном отсечения). Последовательно обрабатывая слои декодера и применяя градиентный спуск со знаком, AutoRound совместно оптимизирует округление и отсечение для минимизации ошибки реконструкции на уровне блоков.
Ключевые преимущества:
- Превосходная точность, особенно при очень низкой разрядности
- Поддержка нескольких типов данных: W4A16, MXFP8, MXFP4, FP8, NVFP4 и других
- Смешанная точность, поиск точности на уровне слоев для гибкого баланса между точностью и эффективностью
- Применимость как для LLM, так и для VLM
AutoRound позволяет использовать квантованные модели в различных форматах с низкой разрядностью, разработанных для ускорения вывода на процессорах Intel Xeon, ускорителях Intel Gaudi AI, графических процессорах Intel Data Center, видеокартах Intel Arc B-серии, а также других графических процессорах (например, на базе CUDA).
В будущем Intel добавит встроенную поддержку FP8, MXFP8 и MXFP4 форматов в свою видеокарту нового поколения Intel Data Center под кодовым названием Crescent Island. Модели, квантованные с помощью AutoRound, естественно масштабируются для использования этих типов данных во всем портфеле оборудования Intel AI. Это создает последовательный путь от алгоритмических инноваций к реальному развертыванию.
Автор – Hassan Mujtaba




