微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

微软亚洲研究院有揭幕一种名为 VASA-1 的新实验性人工智能工具可以拍摄一个人的静态照片（或一个人的图画）和现有的音频文件，以实时创建栩栩如生的说话面孔。它能够根据现有的静态图像生成面部表情和头部动作，并生成适当的嘴唇动作来匹配语音或歌曲。研究人员将大量示例上传到项目页面，结果看起来足够好，足以欺骗人们认为它们是真实的。

尽管仔细观察后，示例中的嘴唇和头部运动仍然显得有些机械化且不同步，但很明显，该技术可以被滥用来轻松快速地创建真人的虚假视频。研究人员自己也意识到了这种潜力，并决定不发布“在线演示、API、产品、其他实施细节或任何相关演示”，直到他们确信他们的技术“将被负责任地使用并符合适当的标准” ”。然而，他们没有透露是否计划实施具体的保护措施，以防止不良行为者将它们用于邪恶目的，例如制作虚假色情或虚假信息活动。

研究人员认为，尽管存在滥用的可能性，他们的技术还是有很多好处。他们表示，它可以用来促进教育公平，以及改善那些有沟通障碍的人的可及性，也许可以通过让他们获得可以与他们沟通的化身。他们说，它还可以为有需要的人提供陪伴和治疗支持，并暗示 VASA-1 可以用在软件中，该软件可以提供人们可以与之交谈的人工智能角色。

根据纸 VASA-1 与广告一起部署，并在 VoxCeleb2 数据集上进行训练，该数据集包含从 YouTube 视频中提取的“6,112 位名人的超过一百万个短语”。尽管该工具是在真实面孔上进行训练的，但它也适用于《蒙娜丽莎》等艺术图像，研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩歌曲的音频文件结合起来。 摄影师。这是非常令人兴奋的，值得一看，即使你怀疑这样的技术的实用性。

此嵌入内容在您所在的地区不可用。

本文包含附属链接；如果您点击此链接并进行购买，我们可能会赚取佣金。

微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试

《Helldivers 2》的重大更新招致了负面评价，而且玩家数量并未增加一倍

据报道，谷歌 Pixel 9 将获得一些新的 Gemini AI 功能

You may have missed

Boosting Children’s Immune Health: The Role of IgG Milk Powder

《娱乐新闻》称，权怡芳的女儿李凯馨被评为中国网剧的后起之秀之一

作为一个没有资金的交易者如何赚取更多利润

周鑫将亮相2024腾讯音乐娱乐盛典

發佈留言 取消回覆

More Stories