12 февраля — Xiaohongshu (RED) представила свою новую базовую модель редактирования изображений с открытым исходным кодом FireRed-Image-Edit, опубликовав код, технический отчет и демонстрационные страницы на GitHub и Hugging Face. Ожидается, что веса модели появятся в ближайшие дни.

Модель продемонстрировала передовые результаты (SOTA) на нескольких ведущих бенчмарках по редактированию изображений, включая ImgEdit и GEdit.
Команда также представила RedEdit Bench, собственный фреймворк для оценки, охватывающий 15 подзадач, таких как вставка/удаление объектов, улучшение портретов и восстановление изображений низкого качества. Бенчмарк также будет выпущен с открытым исходным кодом.
Технически FireRed-Image-Edit использует трехэтапную стратегию обучения:
- Предварительное обучение: выборка перцептивных бакетов с множеством условий и динамическое обогащение инструкций для улучшения обобщения.
- Дообучение: высококачественные отобранные данные для уточнения производительности редактирования.
- Обучение с подкреплением: новый механизм вознаграждения на основе OCR с учетом расположения, который наказывает за опечатки, смещенные символы, аномальное масштабирование шрифта и искажения макета — значительно повышая точность редактирования текста и стилистическую согласованность.

Основные возможности включают точное следование инструкциям, точное редактирование текста, перенос стиля, слияние изображений по нескольким ссылкам, восстановление старых фотографий и высококачественное улучшение изображений.
Xiaohongshu заявила, что будущие обновления будут направлены на дальнейшее улучшение ретуши портретов, точности редактирования текста и сохранения согласованности, а в ближайшие месяцы планируются дополнительные релизы с открытым исходным кодом, включая базовые модели преобразования текста в изображение.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




