微软亚洲研究院有 揭幕 一种名为 VASA-1 的新实验性人工智能工具可以拍摄一个人的静态照片(或一个人的图画)和现有的音频文件,以实时创建栩栩如生的说话面孔。 它能够根据现有的静态图像生成面部表情和头部动作,并生成适当的嘴唇动作来匹配语音或歌曲。 研究人员将大量示例上传到项目页面,结果看起来足够好,足以欺骗人们认为它们是真实的。
尽管仔细观察后,示例中的嘴唇和头部运动仍然显得有些机械化且不同步,但很明显,该技术可以被滥用来轻松快速地创建真人的虚假视频。 研究人员自己也意识到了这种潜力,并决定不发布“在线演示、API、产品、其他实施细节或任何相关演示”,直到他们确信他们的技术“将被负责任地使用并符合适当的标准” ”。 然而,他们没有透露是否计划实施具体的保护措施,以防止不良行为者将它们用于邪恶目的,例如制作虚假色情或虚假信息活动。
研究人员认为,尽管存在滥用的可能性,他们的技术还是有很多好处。 他们表示,它可以用来促进教育公平,以及改善那些有沟通障碍的人的可及性,也许可以通过让他们获得可以与他们沟通的化身。 他们说,它还可以为有需要的人提供陪伴和治疗支持,并暗示 VASA-1 可以用在软件中,该软件可以提供人们可以与之交谈的人工智能角色。
根据 纸 VASA-1 与广告一起部署,并在 VoxCeleb2 数据集上进行训练,该数据集包含从 YouTube 视频中提取的“6,112 位名人的超过一百万个短语”。 尽管该工具是在真实面孔上进行训练的,但它也适用于《蒙娜丽莎》等艺术图像,研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩歌曲的音频文件结合起来。 摄影师。 这是非常令人兴奋的,值得一看,即使你怀疑这样的技术的实用性。
此嵌入内容在您所在的地区不可用。
本文包含附属链接; 如果您点击此链接并进行购买,我们可能会赚取佣金。
“极端问题解决者。旅行忍者。典型的网络迷。浏览器。作家。读者。无法治愈的组织者。”
More Stories
Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试
《Helldivers 2》的重大更新招致了负面评价,而且玩家数量并未增加一倍
据报道,谷歌 Pixel 9 将获得一些新的 Gemini AI 功能