Ana Ryu/视觉中国集团/盖蒂图片社
2023 年 3 月 19 日,微软位于华盛顿州西雅图的公司总部出现了一个标志。
纽约
美国有线电视新闻网
—
得益于微软的新人工智能技术,《蒙娜丽莎》现在不仅仅可以微笑。
上周,微软研究人员详细介绍了他们开发的一种新的人工智能模型,该模型可以拍摄某人面部的静态图像和某人说话的音频剪辑,并自动创建该人说话的逼真视频。 这些视频可以根据现实生活中的面孔以及漫画或艺术品制作,并具有令人信服的口型同步以及自然的面部和头部动作。
在一个实验视频中,研究人员展示了他们如何让《蒙娜丽莎》动画化,以背诵女演员安妮·海瑟薇的一首喜剧说唱歌曲。
AI模型的输出被称为 瓦萨一号,既有趣又在现实中有些矛盾。 微软表示,该技术可用于教育,“提高有沟通障碍的个人的可访问性”,或者可能为人类创建虚拟伴侣。 但也很容易看出该工具如何被滥用并用于冒充真人。
这是一个超越微软的担忧:随着越来越多的工具出现来创建引人注目的人工智能生成的图像、视频和音频剪辑, 专家担心 它们的滥用可能会导致新形式的错误信息。 一些人还担心技术可能会进一步扰乱从电影到广告等创意产业。
目前,微软表示不打算立即向公众发布VASA-1模型。 此举类似于微软合作伙伴 OpenAI 解决周围问题的方式 人工智能生成的视频工具Sora:OpenAI 在 2 月份对 Sora 进行了调侃,但迄今为止仅向一些专业用户和网络安全教授提供测试用途。
微软研究人员在博客文章中表示:“我们反对任何向真实的人制造误导或有害内容的行为。” 但他们补充说,该公司“没有计划公开发布”该产品,“直到我们确保该技术得到负责任地使用并符合适当的法规。”
研究人员表示,微软的新人工智能模型在多个人说话时面部的视频上进行了训练,旨在识别自然的面部和头部运动,包括“嘴唇运动、(非嘴唇)表情、目光凝视和眨眼等”。 “ 其他事情”。 当 VASA-1 平移静态图像时,结果是更逼真的视频。
例如,在一段测试视频中,有人看上去很激动,显然是在玩电子游戏,说话的人眉头紧锁,嘴唇撅起。
人工智能工具还可以被指导制作一段视频,其中主体看向某个方向或表达某种情绪。
仔细观察,仍然有迹象表明这些视频是机器生成的,例如不频繁的眨眼和夸张的眉毛动作。 但微软表示,它相信其模型“明显优于”其他类似工具,并“为与模仿人类对话行为的逼真化身进行实时交互铺平了道路。”
“极端问题解决者。旅行忍者。典型的网络迷。浏览器。作家。读者。无法治愈的组织者。”
More Stories
Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试
《Helldivers 2》的重大更新招致了负面评价,而且玩家数量并未增加一倍
据报道,谷歌 Pixel 9 将获得一些新的 Gemini AI 功能