28 января Alibaba Cloud Tongyi официально открыл исходный код своей базовой модели Z-Image.
Модель обладает 6 миллиардами параметров и представляет собой необученную (non-distilled) базовую модель, сохраняющую полное распределение весов. Она нативно поддерживает механизм CFG guidance, предоставляя прочную основу для тонкой настройки (fine-tuning) таких задач, как LoRA и ControlNet.
Цель Z-Image — преодолеть ограничения, накладываемые одним стилистическим измерением: она способна точно воспроизводить и реконструировать каждую деталь, будь то фотореалистичный рендеринг с точным светом и тенью или стилизованные, насыщенные эмоциями аниме и цифровое искусство.
Для решения распространённой проблемы гомогенизированных результатов Z-Image оптимизирует распределение пространства выборки (sampling space distribution), гарантируя существенные различия в лицах и композициях сгенерированных изображений. В сценах с несколькими персонажами модель изолирует индивидуальные характеристики, чтобы избежать появления «усреднённых лиц», характерных для ИИ-генераций.
Кроме того, Z-Image эффективно реагирует на негативные промпты, позволяя пользователям отфильтровывать дефекты и очищать изображения, достигая точного контроля над композицией, освещением и тенями на протяжении всего процесса генерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




