Новости: квантование

Bingbi AI открывает исходный код BitCPM-CANN: 1,58-битное обучение стало возможным на отечественных вычислительных мощностях

Bingbi AI открыла исходный код BitCPM-CANN — фреймворка для обучения с точностью 1,58 бита на отечественных ускорителях ИИ, что снижает требования к памяти при инференсе до шести раз по сравнению с полной точностью. — pandaily.com

ИИ

26.05.2026

Pandaily

1.58-бит, bingbi ai, bitcpm-cann, pandaily.com, ии ускорители, квантование, память

PrismML представила энергоэффективную «1-bit LLM», стремясь освободить ИИ от «облака»

Модель Bonsai 8B от PrismML конкурентоспособна с другими моделями 8B, но при этом в 14 раз меньше и в 5 раз энергоэффективнее. — theregister.com

Prismml Bonsai 8b 1-битовая модель ии квантование Llm theregister.com

Программы

04.04.2026

Thomas Claburn

1-битовая модель, bonsai 8b, LLM, prismml, theregister.com, ИИ, квантование

Алгоритм сжатия TurboQuant от Google сокращает потребление памяти LLM в 6 раз

TurboQuant делает модели ИИ более эффективными, но, в отличие от других методов, не снижает качество выходных данных. — arstechnica.com

Turboquant ии сжатие бям квантование память arstechnica.com

Железо

25.03.2026

Ryan Whitwam

arstechnica.com, turboquant, бям, ИИ, квантование, память, сжатие

TurboQuant от Google сокращает требования к объему кэш-памяти AI LLM минимум в шесть раз

В тестах на GPU Nvidia H100 4-битный TurboQuant обеспечил прирост производительности до восьми раз при вычислении логитов внимания по сравнению с неквантованными 32-битными ключами, сократив память KV-кэша в шесть раз. — tomshardware.com

Google Turboquant квантование Llm сжатие Gpu tomshardware.com

ИИ

25.03.2026

Luke James

Google, GPU, LLM, tomshardware.com, turboquant, квантование, сжатие

На iPhone 17 Pro успешно запустили LLM на 400 млрд параметров: для этого нужно минимум 200 ГБ памяти

LLM на 400 млрд параметров обычно требуют 200 ГБ ОЗУ, но энтузиаст смог запустить такую модель на iPhone 17 Pro, используя проект Flash-MoE и SSD для потоковой передачи данных на GPU. Скорость генерации — всего 0,6 токена/с. — wccftech.com

Llm Iphone 17 Pro Flash-Moe Moe квантование wccftech.com

Гаджеты

23.03.2026

Omar Sohail

flash-moe, iphone 17 pro, LLM, moe, wccftech.com, квантование

Искать на сайте