23 11 月, 2024

Eddiba Sports

从亚洲的Eddiba获取最新的亚洲新闻:重大新闻,专题报道,分析和特别报道以及来自亚洲大陆的音频和视频。

实时视频可能是人工智能技术的下一个飞跃

实时视频可能是人工智能技术的下一个飞跃

伊恩·桑萨维拉 (Ian Sansavera) 是纽约一家名为 Runway AI 的初创公司的软件工程师,他对自己希望在视频中看到的内容进行了简短描述。 书籍“安静的树林中的河流”。

不到两分钟后,一项测试互联网服务生成了一段关于森林中平静河流的短片。 流淌的河水在阳光下闪闪发光,穿过树木和蕨类植物,拐过一个弯,轻轻地拍打在岩石上。

Runway 计划于本周向一小部分测试人员开放服务,它是开发人工智能技术的几家公司之一,这些公司很快将允许人们通过在计算机屏幕上的框中输入几个单词来创建视频。

它们代表了行业竞赛的下一阶段——包括微软和谷歌等巨头以及规模小得多的初创公司——创造新型人工智能系统,一些人认为这些系统可能成为技术领域的下一个重大事件,与网络浏览器一样重要或 iPhone。

新的视频创作系统可以加快电影制作人和其他数字艺术家的工作,同时成为一种新的、快速的方式来在线创建难以检测的错误信息,让人很难分辨什么是真实的在线。

这些系统是所谓的生成人工智能的例子,它可以立即生成文本、图像和声音。 另一个例子是 ChatGPT,它是旧金山初创公司 OpenAI 创建的在线聊天机器人,去年年底以其功能震惊了科技行业。

Google 和 Facebook 的母公司 Meta, 它在去年推出了首个视频生成系统,但他们没有与公众分享,因为他们担心这些系统最终可能会以其新发现的速度和效率被用来传播虚假信息。

但 Runway 首席执行官克里斯托瓦尔·巴伦苏埃拉 (Cristobal Valenzuela) 表示,尽管存在风险,但他认为这项技术太重要了,不能留在研究实验室。 “这是我们在过去 100 年中创造的最令人印象深刻的技术之一,”他说。 “你需要人们实际使用它。”

当然,编辑和操作电影和视频的能力并不是什么新鲜事。 一个多世纪以来,电影制作人一直在这样做。 近年来,研究人员和数字艺术家使用各种人工智能技术和程序来创建和编辑通常被称为假视频的视频。

但是,像 Runway 创建的系统那样的系统可以及时通过按一下按钮来取代编辑技能。

跑道技术可以制作任何简短描述的视频。 要开始,只需写一个描述,就像快速注释一样。

如果场景包含一些动作 – 但不是很多动作 – 例如“大城市的雨天”或“公园里拿着手机的狗”,则效果最佳。 按 Enter,系统将在一两分钟内创建一个视频。

该技术可以再现常见的图像,例如睡在地毯上的猫。 或者他可以结合不同的概念来制作奇特有趣的视频,例如生日派对上的奶牛。

视频只有四秒长,仔细看视频断断续续、模糊不清。 有时,图像是奇怪的、扭曲的和令人不安的。 该系统有一种方法可以将狗和猫等动物与球和手机等无生命物体融合在一起。 但如果方向正确,他正在制作展示技术发展方向的视频。

“在这一点上,如果我看到高清视频,我可能会相信它。但这很快就会改变,”麻省理工学院人工智能专业教授菲利普伊索拉说。

与其他生成式 AI 技术一样,Runway 的系统通过分析数字数据来学习——在这种情况下,是照片、视频和描述这些图像包含内容的注释。 通过在越来越多的数据上训练这种技术,研究人员相信他们可以快速提高和扩展他们的技能。 专家们相信,他们很快就会制作出具有音乐和对话的专业外观的迷你电影。

很难说系统当前正在创建什么。 这不是一张照片。 这不是卡通片。 它是许多像素混合在一起以创建逼真的视频的集合。 该公司计划将其技术与其他工具一起引入,它认为这些工具将加快专业艺术家的工作。

在过去的一个月里,社交媒体上充斥着教皇弗朗西斯穿着白色 Balenciaga 羽绒服的照片——对于这位 86 岁的教皇来说,这是一件令人惊讶的现代装束。 但这些照片不是真的。 芝加哥一名31岁建筑工人引起不小轰动 使用名为 Midjourney 的流行 AI 工具.

Isola 博士花了数年时间构建和测试此类技术,首先是在加州大学伯克利分校和 OpenAI 担任研究员,然后在麻省理工学院担任教授。 完全是教皇弗朗西斯的假照片。

“曾几何时,人们会发布深度造假,但他们不会愚弄我,因为这太奇怪或太不切实际,”他说。 “现在,我们不能以表面价值获取我们在网上看到的任何图像。”

Midjourney 是众多可以根据简短提示创建逼真的静止图像的服务之一。 其他应用程序包括 Stable Diffusion 和 DALL-E,OpenAI 技术在一年前推出时开启了这一波图像生成器。

Midjourney 依赖于神经网络,该网络通过分析大量数据来学习其技能。 它在梳理数以百万计的数字图像以及描述所拍摄图像的文本标题时寻找模式。

当有人描述系统的图像时,他们正在创建图像可能具有的功能列表。 一个特征可能是狗耳朵顶部的曲线。 另一个可能是手机的边缘。 接下来,称为扩散模型的第二个神经网络生成图像并生成属性所需的像素。 最后,它将像素转换成连贯的图像。

像 Runway 这样拥有大约 40 名员工并筹集了 9550 万美元的公司正在使用这项技术来制作动态图像。 通过分析数以千计的视频片段,他们的技术可以学会以类似连贯的方式将许多静止图像拼接在一起。

“视频只是一系列帧——静止图像——以一种给人运动幻觉的方式组合在一起,”巴伦苏埃拉先生说。 “诀窍是训练一个了解每个框架之间的关系和一致性的模型。”

与 DALL-E 和 Midjourney 等早期版本的乐器一样,该技术有时会以奇怪的方式结合概念和图像。 如果你点了一只打篮球的熊,他可能会赠送一种带有led篮球的变形毛绒玩具。 如果你在公园里问一只带手机的狗,它可能会给你一只带着外星人身体的手机小狗。

但专家们相信,随着他们用越来越多的数据训练他们的系统,他们可以纠正这些缺陷。 他们相信技术最终将使制作视频像写一句话一样简单。

“在过去,要远程做任何这样的事情,你必须有一台相机。你必须有道具。你必须有一个位置。你必须得到许可,”宾夕法尼亚州的作家兼出版商 Susan Bonser 说。 State 曾体验过生成视频技术的早期化身,“你应该有钱。”“你现在不必拥有这些。 你可以坐下来想象一下。”

READ  苹果正在努力解决 iPhone 闹钟问题苹果