Стартап, поддерживаемый Peak XV, который специализируется на создании видеоинструментов для электронной коммерции, не разрабатывал Varya с нуля. Он начал с Wan 2.2 — общедоступной модели генерации видео, выпущенной Alibaba, — и использовал технику, называемую дистилляцией, по сути, сжатие возможностей модели в более легкую и быструю версию, оптимизированную для конкретных сценариев использования Avataar. В результате получилась модель, работающая за четыре шага вместо 50 у Wan 2.2, что позволяет генерировать видео в 10 раз быстрее и при доле затрат.
Если говорить конкретно: используя графический процессор NVIDIA H200, Varya может сгенерировать 5-секундный клип с разрешением 720p за 45 секунд по сравнению с 1230 секундами для Wan 2.2.
Самый поразительный аспект Varya — это, возможно, ее цена. Компания планирует взимать плату в размере 0,48 индийских рупий (0,005 доллара США) за секунду видео в своем хостинговом сервисе — это намного дешевле, чем модели вроде Veo, Kling, Luma и Runway, которые обычно взимают 0,10 доллара или больше за секунду. Это разница в цене примерно в 20 раз.
«Индия — это рынок, ориентированный на видео. Мы видим это во всех крупных потребительских интернет-продуктах в Индии: видео выигрывает у текста. Существующие модели генерации видео с помощью ИИ слишком дороги для использования в масштабах всего населения Индии. Если видео-ИИ должен охватить студентов, преподавателей, МСП, создателей контента, предприятия и государственные службы, затраты должны резко снизиться. Стоимость — это главный фактор для внедрения ИИ в Индии», — заявил TechCrunch Раджан Анандан, управляющий директор Peak XV.
Модели генерации изображений и видео часто упускают культурные нюансы и выдают стереотипные или общие результаты — проблему, о которой TechCrunch уже сообщал ранее. Avataar AI заявляет, что использовала отобранные данные для обучения Varya распознаванию культурных нюансов, включая еду, одежду, архитектуру и фестивали.
Varya будет выпущена как модель с открытым весом на портале India’s AI Kosh — централизованном репозитории индийского правительства для общедоступных моделей и наборов данных ИИ — вместе с данными для ее обучения, что означает, что разработчики могут размещать ее на своих серверах или изменять для своих нужд. Avataar также планирует сделать модель доступной для своих корпоративных клиентов и заявляет о готовности к партнерству с видеоинструментами, включая Higgsfield и Adobe Firefly. Любой желающий может попробовать ее прямо сейчас на веб-сайте, используя текстовые запросы или эталонные изображения.
Запуск Varya отражает фундаментальный компромисс в амбициях Индии в области ИИ. Ветераны отрасли отмечают, что Индия может заявить о себе в сфере ИИ, создавая приложения и надежную экосистему разработчиков, а не конкурируя на уровне базовых моделей. И этому прагматизму есть причина: разработка моделей в Индии отстает от мировых конкурентов из-за нехватки вычислительных мощностей и ограниченной доступности качественных данных.
Миссия India AI также является частью более широких усилий правительства по устранению этого разрыва. В прошлом году оно выбрало 12 стартапов — в том числе Avataar AI — для разработки моделей ИИ и предоставило им экономически эффективные вычислительные ресурсы. В начале этого года министр информационных технологий Ашвини Вайшнав заявил, что Индия стремится привлечь 200 миллиардов долларов инвестиций в ИИ к 2028 году и более чем удвоить свои мощности GPU в течение шести месяцев.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Ivan Mehta




