В условиях растущей конкуренции на рынке ИИ Alibaba Cloud анонсировала открытую модель Wan 2.5 для генерации бесплатного видео длиной до 10 секунд, ставшую доступной 25 сентября 2025 года. Эта платформа, основанная на 14- и 1,3-миллиардных параметрах, позволяет создавать высококачественные ролики из текста или изображений, лидируя в бенчмарке VBench с результатом 86,22% (против 84,28% у Sora от OpenAI).
Ключевой инновацией стал модуль Speech-to-Video (S2V), интегрированный с синтезатором CosyVoice: модель автоматически генерирует аудиоэффекты, фоновую музыку и речь. Реплики задаются в запросе в кавычках, поддерживая русский и другие языки. Например: "Кот в очках едет на сёрфе" — и видео оживает с синхронизированным голосом. Легковесная версия T2V-1.3B требует всего 8 ГБ VRAM, генерируя 10-секундный ролик 480p за 4 минуты на RTX 4090.
В соцсетях, включая X и Reddit, Wan 2.5 окрестили "народным аналогом" платной Veo 3 от Google, подчеркивая её доступность. С 2,2 млн скачиваний на Hugging Face и GitHub модель стимулирует разработку для маркетинга, образования и креатива.
Эксперты прогнозируют ускорение ИИ-видеопроизводства. Доступна на wan.video и ModelScope.