新闻中心News

阿里开源视频生成模型 Wan2.2-S2V

作者：碧海醫心 | 点击: | 来源：碧海醫心

2708
2025

阿里正式开源其最新多模态视频生成模型——通义万相Wan2.2-S2V。该模型仅需一张静态图像与一段音频输入，即可生成具备电影级质感的数字人视频，单次生成视频时长可达分钟级别，显著提升数字人直播、影视内容制作、AI教育等领域的视频创作效率。Wan2.2-S2V具备广泛的图像驱动能力，可支持真人、卡通形象、动物及各类数字人角色，并兼容肖像、半身、全身等多种构图比例。用户只需上传一段音频，模型即可让图片中的人物实现自然的说话、唱歌及表情表演动作。通义实验室在通义万相原有通用视频生成技术基础上，融合文本...

阿里正式开源其最新多模态视频生成模型——通义万相Wan2.2-S2V。该模型仅需一张静态图像与一段音频输入，即可生成具备电影级质感的数字人视频，单次生成视频时长可达分钟级别，显著提升数字人|直播|、*内容制作、AI教育等领域的视频创作效率。

Wan2.2-S2V具备广泛的图像驱动能力，可支持真人、卡通形象、动物及各类数字人角色，并兼容肖像、半身、全身等多种构图比例。用户只需上传一段音频，模型即可让图片中的人物实现自然的说话、唱歌及表情表演动作。

通义实验室在通义万相原有通用视频生成技术基础上，融合文本引导的全局运动控制与音频驱动的细粒度局部运动机制，成功实现复杂场景下的高精度音频同步视频生成。通过引入AdaIN与CrossAttention双重控制结构，进一步提升了音频响应的准确性与动态表现力。

在生成时长方面，Wan2.2-S2V实现单次输出分钟级视频，达到当前行业领先水平。

为保障长视频生成的稳定性，模型采用层次化帧压缩技术，显著减少历史帧所占用的Token开销，使motion frames（历史参考帧）数量从传统的几帧扩展至最多73帧，有效支撑长时间连贯视频的生成。

此外，Wan2.2-S2V还支持文本提示（Prompt）控制功能。用户可

通过输入指令对视频内容进行调控，实现镜头推拉、角色移动路径设定以及角色与环境之间的互动，使画面运动更加多样化、场景更具叙事性。

在训练策略上，通义团队构建了包含超60万个音视频片段的大规模数据集，并采用混合并行方式进行全参数微调，充分释放模型潜力，提升生成质量。

同时，得益于多分辨率训练机制的支持，Wan2.2-S2V可在推理阶段灵活适配不同输出需求，无论是竖屏短视频还是横屏*剧，均能提供高质量的视频生成服务。

源码地址：点击下载

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

阿里开源视频生成模型 Wan2.2-S2V