说唱蒙娜丽莎？新的微软人工智能将照片中的面孔动画化

Ana Ryu/视觉中国集团/盖蒂图片社

2023 年 3 月 19 日，微软位于华盛顿州西雅图的公司总部出现了一个标志。

纽约
美国有线电视新闻网
—

得益于微软的新人工智能技术，《蒙娜丽莎》现在不仅仅可以微笑。

上周，微软研究人员详细介绍了他们开发的一种新的人工智能模型，该模型可以拍摄某人面部的静态图像和某人说话的音频剪辑，并自动创建该人说话的逼真视频。这些视频可以根据现实生活中的面孔以及漫画或艺术品制作，并具有令人信服的口型同步以及自然的面部和头部动作。

在一个实验视频中，研究人员展示了他们如何让《蒙娜丽莎》动画化，以背诵女演员安妮·海瑟薇的一首喜剧说唱歌曲。

AI模型的输出被称为瓦萨一号，既有趣又在现实中有些矛盾。微软表示，该技术可用于教育，“提高有沟通障碍的个人的可访问性”，或者可能为人类创建虚拟伴侣。但也很容易看出该工具如何被滥用并用于冒充真人。

这是一个超越微软的担忧：随着越来越多的工具出现来创建引人注目的人工智能生成的图像、视频和音频剪辑，专家担心它们的滥用可能会导致新形式的错误信息。一些人还担心技术可能会进一步扰乱从电影到广告等创意产业。

目前，微软表示不打算立即向公众发布VASA-1模型。此举类似于微软合作伙伴 OpenAI 解决周围问题的方式人工智能生成的视频工具Sora：OpenAI 在 2 月份对 Sora 进行了调侃，但迄今为止仅向一些专业用户和网络安全教授提供测试用途。

微软研究人员在博客文章中表示：“我们反对任何向真实的人制造误导或有害内容的行为。” 但他们补充说，该公司“没有计划公开发布”该产品，“直到我们确保该技术得到负责任地使用并符合适当的法规。”

研究人员表示，微软的新人工智能模型在多个人说话时面部的视频上进行了训练，旨在识别自然的面部和头部运动，包括“嘴唇运动、（非嘴唇）表情、目光凝视和眨眼等”。 “ 其他事情”。当 VASA-1 平移静态图像时，结果是更逼真的视频。

例如，在一段测试视频中，有人看上去很激动，显然是在玩电子游戏，说话的人眉头紧锁，嘴唇撅起。

人工智能工具还可以被指导制作一段视频，其中主体看向某个方向或表达某种情绪。

仔细观察，仍然有迹象表明这些视频是机器生成的，例如不频繁的眨眼和夸张的眉毛动作。但微软表示，它相信其模型“明显优于”其他类似工具，并“为与模仿人类对话行为的逼真化身进行实时交互铺平了道路。”

“极端问题解决者。旅行忍者。典型的网络迷。浏览器。作家。读者。无法治愈的组织者。”