Intel AutoRound ускоряет и повышает эффективность квантованных LLM-моделей на GPU Intel и устройствах на базе CUDA, подтверждена поддержка FP8, MXFP8 и MXFP4 в Cresent Island.

Hassan Mujtaba

09.12.2025

intel,autoround,llm,квантизация,gpu,crescent island

Intel представляет AutoRound — новый алгоритм квантизации, ускоряющий работу больших языковых моделей (LLM) на CPU, GPU Intel и CUDA. Crescent Island получит поддержку MXFP8 и MXFP4, что позволит существенно повысить эффективность AI-вычислений.

Технология AutoRound от Intel обеспечивает более быструю и эффективную работу LLM на процессорах и графических процессорах Intel, а Crescent Island готова к поддержке MXFP8 и MXFP4.

Алгоритм Intel AutoRound Ускоряет Работу LLM на Процессорах и GPU Intel, CUDA, Crescent Island Получает Поддержку MXFP8 и MXFP4

Пресс-релиз: Мы рады сообщить, что AutoRound, современный алгоритм пост-тренировочной квантизации (PTQ), разработанный Intel, теперь интегрирован в LLM Compressor. Это сотрудничество обеспечивает:

Повышенную точность при квантизации с низкой разрядностью
Облегчённую настройку (сотни шагов, а не тысячи)
Нулевую дополнительную задержку при выводе
Бесшовную совместимость с compressed-tensors и прямым обслуживанием в vLLM
Упрощённый рабочий процесс: квантизация и обслуживание моделей всего в несколько строк кода

В ближайшее время будут представлены более широкие схемы квантизации и поддержка большего количества моделей — попробуйте прямо сейчас и помогите нам определить направление развития.

Что такое AutoRound?

AutoRound — это продвинутый алгоритм пост-тренировочной квантизации (PTQ), предназначенный для больших языковых моделей (LLM) и моделей «Видение-Язык» (VLM). Он представляет три обучаемых параметра для каждого квантованного тензора: v (смещение/корректировка округления), α и β (обучаемые элементы управления диапазоном отсечения). Последовательно обрабатывая слои декодера и применяя градиентный спуск со знаком, AutoRound совместно оптимизирует округление и отсечение для минимизации ошибки реконструкции на уровне блоков.

Ключевые преимущества:

Превосходная точность, особенно при очень низкой разрядности
Поддержка нескольких типов данных: W4A16, MXFP8, MXFP4, FP8, NVFP4 и других
Смешанная точность, поиск точности на уровне слоев для гибкого баланса между точностью и эффективностью
Применимость как для LLM, так и для VLM

AutoRound позволяет использовать квантованные модели в различных форматах с низкой разрядностью, разработанных для ускорения вывода на процессорах Intel Xeon, ускорителях Intel Gaudi AI, графических процессорах Intel Data Center, видеокартах Intel Arc B-серии, а также других графических процессорах (например, на базе CUDA).

В будущем Intel добавит встроенную поддержку FP8, MXFP8 и MXFP4 форматов в свою видеокарту нового поколения Intel Data Center под кодовым названием Crescent Island. Модели, квантованные с помощью AutoRound, естественно масштабируются для использования этих типов данных во всем портфеле оборудования Intel AI. Это создает последовательный путь от алгоритмических инноваций к реальному развертыванию.

Автор – Hassan Mujtaba

Оригинал статьи

В тренде:

autoround, crescent island, GPU, Intel, LLM, квантизация

Intel полностью поддерживает своего спорного нового сотрудника, которого TSMC обвиняет в краже корпоративных секретов.
27.11.2025
Intel поддержала Wei-Jen Lo в споре с TSMC. Бывший топ-менеджер TSMC, Вэй-Джен Ло, обвиняется в передаче коммерческих тайн Intel после 21 года работы в TSMC. Подробности иска и ответ Intel.
Мы собрали игровой ПК 1440p дешевле $1500 благодаря скидкам Cyber Monday — твой последний шанс победить апокалипсис оперативной памяти
30.11.2025
Сбалансированная сборка ПК за $1500 для продуктивности и игр в 1440p, доступная только с киберпонедельничными скидками. Включает процессор Intel Core Ultra 7, Radeon RX 9070, 32 ГБ DDR5 и два бесплатных проекта — Star Wars Outlaws и Battlefield 6.
Itochu и Castrol подписали меморандум о сотрудничестве по системам жидкостного охлаждения в Японии
15.12.2025
Японские компании Itochu и Castrol объединяют усилия для ускорения перехода дата-центров Японии на жидкостное охлаждение. Партнерство направлено на решение проблем растущих тепловых нагрузок и энергопотребления, связанных с развитием ИИ и высокопроизводительных вычислений.
Видеокарты GALAX HOF: потрясающая производительность, превосходный дизайн и первоклассное охлаждение для серии RTX 50 и готовность к новым рекордам разгона
02.12.2025
Графические процессоры GALAX GeForce RTX 50 HOF Gaming предлагают лидирующие возможности разгона и игровую производительность, готовые побить мировые рекорды OC. Новая маркетинговая кампания демонстрирует уникальные особенности серии: двойные 16‑пиновые разъёмы, охлаждение Wings 3.0, белую PCB и AI‑поддержку, подтверждая лидерство в премиум‑видеокартах.

Intel AutoRound ускоряет и повышает эффективность квантованных LLM-моделей на GPU Intel и устройствах на базе CUDA, подтверждена поддержка FP8, MXFP8 и MXFP4 в Cresent Island.

Алгоритм Intel AutoRound Ускоряет Работу LLM на Процессорах и GPU Intel, CUDA, Crescent Island Получает Поддержку MXFP8 и MXFP4

В тренде:

Intel полностью поддерживает своего спорного нового сотрудника, которого TSMC обвиняет в краже корпоративных секретов.

Мы собрали игровой ПК 1440p дешевле $1500 благодаря скидкам Cyber Monday — твой последний шанс победить апокалипсис оперативной памяти

Itochu и Castrol подписали меморандум о сотрудничестве по системам жидкостного охлаждения в Японии

Видеокарты GALAX HOF: потрясающая производительность, превосходный дизайн и первоклассное охлаждение для серии RTX 50 и готовность к новым рекордам разгона