25 12 月, 2024

Eddiba Sports

从亚洲的Eddiba获取最新的亚洲新闻:重大新闻,专题报道,分析和特别报道以及来自亚洲大陆的音频和视频。

OpenAI 的新型 AI 图像生成器以快速的细节和分辨率突破了界限 – Ars Technica

OpenAI 的新型 AI 图像生成器以快速的细节和分辨率突破了界限 – Ars Technica
使用 OpenAI 的 DALL-E 3 图像蒙太奇模型创建的一系列图像。

周三,OpenAI 宣布 DALL-E 3,最新版本的AI图像合成模型,与ChatGPT完全集成。 DALL-E 3 通过严格遵循复杂的描述并处理图像内文本(例如标签和标签)的创建来显示图像,这对以前的模型是一个挑战。 目前处于研究预览阶段,将于 10 月初向 ChatGPT Plus 和企业客户提供。

与其前身一样,DALLE-3 是一个文本到图像生成器,可以根据称为提示的书面描述创建新图像。 尽管 OpenAI 尚未发布有关 DALL-E 3 的任何技术细节,但 DALL-E 之前版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练,其中一些图像是从库存中获得许可的Shutterstock 等网站。 DALL-E 3 可能遵循相同的公式,但采用新的训练技术和更长的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是一个比任何其他可用的蒙太奇模型都更强大的蒙太奇模型。 虽然 OpenAI 的示例因其有效性而经过精心挑选,但它们似乎忠实且令人信服地遵循快速指令,以最小的失真渲染对象。 OpenAI 表示,与 DALL-E 2 相比,DALL-E 3 更有效地优化了手等小细节,无需黑客攻击或快速工程即可创建几乎有吸引力的图像。

相比之下,Midjourney(来自另一家供应商的竞争性人工智能图像合成模型)可以很好地显示真实的细节,但仍然需要对提示进行大量不直观的修改才能控制图像输出。

DALL-E 3 似乎还能以前代产品无法做到的方式处理图像中的文本(一些竞争型号,如 Stable Diffusion XL 和 迪普·弗洛伊德 他们在这方面做得更好。) 例如,完美地创作了一幅牛油果卡通片,其中包含该角色的名言,其中包含以下文字:“插图中牛油果坐在治疗师的椅子上,说‘我感觉内心很空虚’,中间有一个火山口大小的洞。 ” 封装在语音气泡中。

值得注意的是,OpenAI 表示,DALL-E 3 已在 ChatGPT 上“原生构建”,并将作为 ChatGPT Plus 的集成功能推出,允许以 AI 助手作为头脑风暴伙伴的方式对图像进行对话式改进。 这也意味着 ChatGPT 将能够根据当前对话的上下文生成图像,这可能会带来新的功能。 微软的 Bing Chat AI 助手也基于 OpenAI 技术构建,自 3 月份以来已经能够在聊天中创建图像。

引发风暴的茶壶

DALL-E 3 人工智能生成的图像
放大 / AI 生成的图像 DALL-E 3:“刮风天放在窗台上的咖啡杯的 3D 渲染。窗外的暴风雨反映在咖啡中,杯内可见微型闪电和湍流。房间里光线昏暗,增添了戏剧性的气氛。”

开放人工智能

DALL-E的原始版本 出现了 2021 年 1 月,OpenAI 于 2022 年 4 月推出了其功能更加强大的续集,开启了人工智能生成图像的新时代,其惊人的宣传吸引了最初的内测测试人员。 DALL-E 型号使用一种称为 潜在传播 它将噪声细化为图像,并从数据集训练和向量指导中获得的知识中“识别”这些图像。 同样的技术使得稳定扩散开放重量模型于去年八月出现。

鉴于 DALL-E 如何通过挖掘大量人类生成的艺术品数据集来在训练中学习图像概念,人工智能图像生成技术自去年推出以来一直备受争议。 该技术引发了艺术家的抗议,他们担心该技术会不道德地取代或复制他们的方法,引发了因在未咨询版权所有者的情况下将被盗图像用作训练数据而引发的版权侵权诉讼,以及版权局的新版权裁决。 。 地方法院法官。

作为对这些争议的认可,OpenAI 表示 DALL-E 3 旨在拒绝请求现场艺术家风格的图像的请求。 也有 OpenAI 提供模型 创作者可以选择不将他们的图像用于训练未来的模型。 这些措施似乎不太可能满足艺术家的要求,他们通常认为人工智能训练应该只是选择加入,而不是默认包含在图像数据集中。

之间的比较
放大 / DALL-E 2(左)和 DALL-E 3(右)创作的“一幅充满表现力的篮球运动员扣篮油画,描绘成星云爆炸”的比较。

开放人工智能

目前,美国版权政策规定,只有人工智能创作的艺术品才能受到版权保护,因此从技术上讲,任何使用 DALL-E 3 创建的图像都将属于公共领域。 尽管 OpenAI 没有明确承认这一点,但它确实表示“您使用 DALL-E 3 创建的图像可供您使用,无需我们的许可即可转载、出售或营销它们。” 与去年 OpenAI 发布时相比,这是一个显着的变化。 限制使用图像 DALE-2 基于 OpenAI“拥有所有世代”的许可证。

在安全方面,OpenAI 表示,与 DALL-E 2 一样,它在 DALL-E 3 中实现了关键字和图像检测过滤器,以限制其产生暴力、性或仇恨内容的能力。 该系统还被编程为拒绝按姓名生成公众人物照片的请求,这导致竞争对手的人工智能照片生成器 Midjourney 在创建唐纳德·特朗普的虚假逮捕照片时出现问题。

OpenAI 表示,它与被称为“红队”的专家合作,识别和减轻潜在风险,例如有害偏见或产生宣传和错误信息。 OpenAI 尚未透露其工具的潜力 打破历史记录 不过,它表示正在试验一种“源分类器”工具,该工具可以帮助确定图像是否是由 DALL-E 3 创建的,但它的诽谤几乎没有经过掩饰。

目前,我们还无法访问 DALL-E 3 进行测试,但 OpenAI 表示 AI 图像生成器现在正在进行封闭测试。 它计划“在 10 月份通过 API 并在今年秋天晚些时候在实验室中”向 ChatGPT Plus 和 Enterprise 客户提供该服务。