进入2024年伊始,社交媒体和朋友圈被各种神奇舞蹈视频刷屏成为新年第一潮流,从兵马俑之舞到马斯克跳跃,再到跨越千山万水的网友们体验科目三考试和流行网络舞曲,这场由AI技术引领的舞蹈潮流在全球范围内掀起狂潮。令人惊叹的是,出现在视频中的”舞者”完全是由大模型技术生成的虚拟形象,而不是真实的人类。
这种让照片秒变舞者的黑科技背后,是阿里云推出的一个名为”通义千问”的APP。通过简单地在APP内输入特定命令如”通义舞王”或”全民舞王”,任何用户都可以轻松进入体验界面,根据提示上传一张照片,短短数分钟,一个完整的舞蹈视频就生成了。这些视频不但能够保留原本照片中的面部表情、身形比例、服饰甚至背景,就连细微的表情线条和服装皱折也能高度还原。
为了满足广大网友的热情,通义千问初期提供了包括科目三、蒙古舞、划桨步、鬼步舞在内的12种流行舞蹈模板。而这背后的技术支撑,则是阿里通义实验室研发的Animate Anyone视频生成模型。其早在去年11月就在海外社交媒体如推特、Youtube上取得爆火之势,相关视频总播放量达到惊人的1亿以上,并在Github上的Star数量在短短几天内便突破了1万大关,引来众多国际开发者和用户的赞誉,并强烈要求“开放体验入口”。
Animate Anyone之所以能强势出圈,除了引人注意的高仿真效果,其技术路线同样吸引了业界目光。在大模型领域一直备受追捧的视频生成研究中,阿里使用了多项创新技术,尤其是其开创的ReferenceNet,强调捕捉和保存原图细节,以及高效的Pose Guider姿态引导器,保障了模型动作的精确性和可控性;还有用于视频帧连贯性的时序生成模块,确保了视频的流畅性。测试结果显示,其性能在同类模型中表现卓越。
通义千问作为国内首批通过备案的大模型,在APP上线以来,功能不断升级,当前已经能够提供包括文本对话、语音对话、翻译、PPT大纲辅助、小红书文稿撰写等几十个功能。其推出的动态视频生成功能,更是让大众亲身体验了AI技术带来的乐趣和便捷,创造了使用AI玩”换脸”的新花样,让原本需要复杂编程和图像处理技能的高端功能变为只需一张照片,任何人都能享受的”即插即用”神奇体验。