OpenAI 的新型 AI 图像生成器以快速的细节和分辨率突破了界限

周三，OpenAI 宣布 DALL-E 3，最新版本的AI图像合成模型，与ChatGPT完全集成。 DALL-E 3 通过严格遵循复杂的描述并处理图像内文本（例如标签和标签）的创建来显示图像，这对以前的模型是一个挑战。目前处于研究预览阶段，将于 10 月初向 ChatGPT Plus 和企业客户提供。

与其前身一样，DALLE-3 是一个文本到图像生成器，可以根据称为提示的书面描述创建新图像。尽管 OpenAI 尚未发布有关 DALL-E 3 的任何技术细节，但 DALL-E 之前版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练，其中一些图像是从库存中获得许可的Shutterstock 等网站。 DALL-E 3 可能遵循相同的公式，但采用新的训练技术和更长的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看，DALL-E 3 似乎是一个比任何其他可用的蒙太奇模型都更强大的蒙太奇模型。虽然 OpenAI 的示例因其有效性而经过精心挑选，但它们似乎忠实且令人信服地遵循快速指令，以最小的失真渲染对象。 OpenAI 表示，与 DALL-E 2 相比，DALL-E 3 更有效地优化了手等小细节，无需黑客攻击或快速工程即可创建几乎有吸引力的图像。

OpenAI 提供的 DALL-E 3 图片，并附有提示：“鳄梨坐在治疗师椅子上的插图，说‘我感觉内心很空虚’，中间有一个洞大小的洞。治疗师、勺子、涂鸦笔记。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像声称：“完全由不同肉类组成的广阔景观展现在观看者面前。薄薄多汁的烤牛肉山、鸡大腿树、培根河和猪肉岩石创造出一个超现实的场景”，但景象却令人胃口大开。天空装饰着意大利辣香肠太阳和萨拉米香肠云。”

开放人工智能
OpenAI 提供的 DALL-E 3 图片，提示：“用室内植物装饰的咖啡馆的缩略图。木梁纵横交错，突出显示了一个装有小瓶子和杯子的冷饮台。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像声称：“寄居蟹的特写镜头，坐落在湿沙中，附近有海泡，突出显示了其贝壳和沙子纹理的细节。”

开放人工智能
OpenAI 提供的 DALL-E 3 图片声称：“纸艺艺术描绘了一个女孩温柔地拥抱她的猫。他们俩坐在盆栽中间，猫满足地发出呼噜声，女孩微笑着。场景是用手工纸装饰的花和叶。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像声称：“科伊特塔的像素艺术视图矗立在电报山上，可以看到下面的城市全景和周围飞翔的鸟儿。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像声称：“小土豆国王戴着雄伟的王冠，坐在王座上，管理着一个充满土豆主题和土豆城堡的广阔土豆王国。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像，声称：“插图显示一颗由透明玻璃制成的人类心脏，站在波涛汹涌的大海中央的基座上。阳光穿透云层，照亮心脏，揭示内部的小宇宙”。 “‘找到你内心的宇宙’这句话被用粗体字刻在地平线上。”

开放人工智能
OpenAI 提供的 DALL-E 3 图像声称：“亚洲血统的中年妇女，她的黑发上有银色的条纹，破碎且有裂纹，错综复杂地镶嵌在破碎的瓷器海洋中。瓷器闪烁着飞溅的油漆。图案“明亮与哑光、绿色、橙色和红色的和谐融合，她的舞蹈在运动与静止的超现实并置中被捕捉到。她的肤色是浅瓷色调，为她的身体增添了一种近乎神秘的品质。”

开放人工智能

相比之下，Midjourney（来自另一家供应商的竞争性人工智能图像合成模型）可以很好地显示真实的细节，但仍然需要对提示进行大量不直观的修改才能控制图像输出。

DALL-E 3 似乎还能以前代产品无法做到的方式处理图像中的文本（一些竞争型号，如 Stable Diffusion XL 和迪普·弗洛伊德他们在这方面做得更好。）例如，完美地创作了一幅牛油果卡通片，其中包含该角色的名言，其中包含以下文字：“插图中牛油果坐在治疗师的椅子上，说‘我感觉内心很空虚’，中间有一个火山口大小的洞。 ” 封装在语音气泡中。

值得注意的是，OpenAI 表示，DALL-E 3 已在 ChatGPT 上“原生构建”，并将作为 ChatGPT Plus 的集成功能推出，允许以 AI 助手作为头脑风暴伙伴的方式对图像进行对话式改进。这也意味着 ChatGPT 将能够根据当前对话的上下文生成图像，这可能会带来新的功能。微软的 Bing Chat AI 助手也基于 OpenAI 技术构建，自 3 月份以来已经能够在聊天中创建图像。

引发风暴的茶壶

DALL-E 3 人工智能生成的图像 — 放大 / AI 生成的图像 DALL-E 3：“刮风天放在窗台上的咖啡杯的 3D 渲染。窗外的暴风雨反映在咖啡中，杯内可见微型闪电和湍流。房间里光线昏暗，增添了戏剧性的气氛。”

开放人工智能

DALL-E的原始版本出现了 2021 年 1 月，OpenAI 于 2022 年 4 月推出了其功能更加强大的续集，开启了人工智能生成图像的新时代，其惊人的宣传吸引了最初的内测测试人员。 DALL-E 型号使用一种称为潜在传播它将噪声细化为图像，并从数据集训练和向量指导中获得的知识中“识别”这些图像。同样的技术使得稳定扩散开放重量模型于去年八月出现。

作为对这些争议的认可，OpenAI 表示 DALL-E 3 旨在拒绝请求现场艺术家风格的图像的请求。也有 OpenAI 提供模型创作者可以选择不将他们的图像用于训练未来的模型。这些措施似乎不太可能满足艺术家的要求，他们通常认为人工智能训练应该只是选择加入，而不是默认包含在图像数据集中。

之间的比较 — 放大 / DALL-E 2（左）和 DALL-E 3（右）创作的“一幅充满表现力的篮球运动员扣篮油画，描绘成星云爆炸”的比较。

开放人工智能

目前，美国版权政策规定，只有人工智能创作的艺术品才能受到版权保护，因此从技术上讲，任何使用 DALL-E 3 创建的图像都将属于公共领域。尽管 OpenAI 没有明确承认这一点，但它确实表示“您使用 DALL-E 3 创建的图像可供您使用，无需我们的许可即可转载、出售或营销它们。” 与去年 OpenAI 发布时相比，这是一个显着的变化。限制使用图像 DALE-2 基于 OpenAI“拥有所有世代”的许可证。

在安全方面，OpenAI 表示，与 DALL-E 2 一样，它在 DALL-E 3 中实现了关键字和图像检测过滤器，以限制其产生暴力、性或仇恨内容的能力。该系统还被编程为拒绝按姓名生成公众人物照片的请求，这导致竞争对手的人工智能照片生成器 Midjourney 在创建唐纳德·特朗普的虚假逮捕照片时出现问题。

OpenAI 表示，它与被称为“红队”的专家合作，识别和减轻潜在风险，例如有害偏见或产生宣传和错误信息。 OpenAI 尚未透露其工具的潜力打破历史记录不过，它表示正在试验一种“源分类器”工具，该工具可以帮助确定图像是否是由 DALL-E 3 创建的，但它的诽谤几乎没有经过掩饰。

目前，我们还无法访问 DALL-E 3 进行测试，但 OpenAI 表示 AI 图像生成器现在正在进行封闭测试。它计划“在 10 月份通过 API 并在今年秋天晚些时候在实验室中”向 ChatGPT Plus 和 Enterprise 客户提供该服务。

Jiang Fengge

"Extreme problem solver. Travel ninja. Quintessential web addict. Browser. Writer. Reader. Incurable organizer."

READ 战地 4 在 2021 年 Prime 会员日之前对亚马逊 Prime 会员免费

OpenAI 的新型 AI 图像生成器以快速的细节和分辨率突破了界限 – Ars Technica

引发风暴的茶壶

Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试

《Helldivers 2》的重大更新招致了负面评价，而且玩家数量并未增加一倍

据报道，谷歌 Pixel 9 将获得一些新的 Gemini AI 功能

You may have missed

作为一个没有资金的交易者如何赚取更多利润

周鑫将亮相2024腾讯音乐娱乐盛典

经历数周冲突后，孟加拉国等待临时政府成立

中国需要破纪录的海运集装箱船

引发风暴的茶壶

發佈留言 取消回覆

More Stories

Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试

《Helldivers 2》的重大更新招致了负面评价，而且玩家数量并未增加一倍

据报道，谷歌 Pixel 9 将获得一些新的 Gemini AI 功能

You may have missed

作为一个没有资金的交易者如何赚取更多利润

周鑫将亮相2024腾讯音乐娱乐盛典

经历数周冲突后，孟加拉国等待临时政府成立

中国需要破纪录的海运集装箱船

發佈留言取消回覆