首页 > 爱酱攻略 >OpenAI 直播狙击谷歌:奥尔特曼 AGI 梗图现场直出,GPT-4o 超强原生生图来袭

OpenAI 直播狙击谷歌:奥尔特曼 AGI 梗图现场直出,GPT-4o 超强原生生图来袭

2025-03-26爱酱手游网

感谢本站网友 华南吴彦祖、软媒用户1392612 的线索投递!

刚刚,OpenAI 深夜直播,GPT-4o 的原生图像生成大升级!奥尔特曼亲自上阵组队,演示了自拍变梗图、相对论漫画等功能,不过相对隔壁谷歌发布的新模型,OpenAI 的这波动作着实有点不够看。

就在谷歌刚刚扔出地表最强模型 Gemini 2.5 Pro 不久,OpenAI 也有动作了。

奥尔特曼亲自带队,展示了 GPT-4o 图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。

目前,这项功能已经在 ChatGPT 和 Sora 中,向所有 Plus、Pro、Team 和免费用户推出。

当然,新版 Sora 生图的时间,也比以往更长了。但 OpenAI 看来,生图的质量和其具备的世界知识,让用户值得等待那多出的几秒。

GPT-4o 原生图像生成来了!

在直播中,奥尔特曼介绍道,从今天起,ChatGPT 中的原生图像生成功能正式推出!

GPT-4o 的全模态能力,从此也融合进了 Sora 中。

OpenAI 多模态研究的负责人 Gabe 介绍说,两年前刚开始这个项目时,他对于 GPT-4 这个强大的模型会怎样原生支持图像模型非常好奇。

一年后,当模型完成训练时,他看到了令人兴奋的迹象。从 GPT-2 以来,他已经很久没有这种感觉 —— 这是一个疯狂时刻。

给出以下 prompt,GPT-4o 就生成了符合要求的图像,完全还原了要求。

接下来,三个人用手机来了张自拍,GPT-4o 立刻把三人自拍转换成了动漫风格的版本。

甚至他们开始官方玩梗,让模型添加一段「Feel The AGI」在图片上,一张表情包就此诞生。

这个过程,就体现了 4o 作为全能模型的强大能力。

因为它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。

用 OpenAI 的话说,「我们终于迈向了这种真正集成的多模态模型」。

接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。

这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。

注意,这个过程中,模型很可能利用了自己的世界知识,对提示词进行了扩展。

然后,他们给了模型一张卡片,希望生成同样风格的图像,但要求主角不再是卡片中的巨猫国王,而是某位研究者的狗狗。

另外,卡片上还需要出现一些细节,比如模型的名字和年份,以及狗狗的体重和身高。

可以看到,生成图像在文本渲染方面非常惊艳,所有数据都准确无误。

最后一个演示,是基于此前几人生成的内容,制作一个纪念币。

而且,还要求图使用了一个特殊的十六进制代码,且加上生成图像的文本和日期。

可以看到,生成结果非常惊艳!此前曾出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期,全部都出现在了纪念币上。

模型之所以精准完成这样复杂的要求,是因为它是用非自回归的方式训练的,因此它能够理解上下文中的文本和多张图片,以非常和谐的方式在纪念币上呈现出来。

和 GPT-4o 聊天,定制各种图像

总之,现在使用这个功能,我们可以创建各种图像,或将其转换为各种风格。

从此,用 GPT-4o 创建和定制图像,就像聊天一样简单。

只需描述所需,就能得到想要的任何细节,比如纵横比、使用十六进制代码的精确颜色或透明背景。

我们可以让它设计一个信息图,解释牛顿的棱镜宽高比,背景为深蓝色。

一张画质高级的教学级图片,立马生成。

这个图像生成功能的特点就是,能遵循非常复杂的提示,极其注重细节。

15 个非常细化的要求,它都在一张图里完美实现了。

要知道,大多数生图模型被要求渲染多个项目时,往往就会混淆颜色和形状,但新模型却能正确绑定 15 到 20 个对象的属性,还能成功理解各自的复杂需求。

在你和它的聊天上下文中,GPT-4o 就能为你构建图像和文本,还能确保一致性。

主打一个实用

从最早的洞穴壁画到现代信息图表,人类一直使用视觉图像来交流、说服和分析。

如今的生成式 AI 模型可以创造出超现实的场景,但在处理人们用于分享和创建信息的实用图像方面仍然存在困难。

GPT‑4o 的图像生成功能擅长准确渲染文本,精确遵循提示词,并利用 GPT-4o 固有的知识库和聊天上下文 —— 包括转换上传的图像或将其用作视觉灵感。

这些能力让用户可以更加容易地创建想象中的画面,帮助通过视觉更有效地沟通,并将图像生成发展成为一种具有精确性和强大功能的实用工具。

毕竟,只有当图像配上指代共享语言和经验的符号时,才能传达精确的含义。

能力大幅增强

通过线上图像和文本的联合分布训练,模型不仅能学会图像如何与语言相关联,还能知道它们之间的相互关系。

结合积极的后训练优化,最终的模型展现出惊人的视觉表现力,能够生成实用、一致且具有上下文感知能力的图像。

文本渲染

一张图片胜过千言万语,但有时在正确的位置添加几个词能够大大提升图像的含义。

GPT-4o 将精确的符号与图像融合的能力使图像生成成为视觉交流的有力工具。

多轮交互生成

由于图像生成现在是 GPT‑4o 的原生功能,用户可以通过自然对话来完善图像。

GPT‑4o 能够基于聊天上下文中的图像和文本进行构建,确保始终保持一致性。

比如,一个正在设计中的游戏角色,它的外观就能在多次迭代和调整中保持连贯一致。

指令遵循

GPT‑4o 的图像生成功能不仅可以遵循详细的提示词,而且还十分注重细节。

相比起其他只能处理 5-8 个物体的模型,GPT‑4o 可以轻松搞定多达 10-20 个不同的物体。

并且,物体与其特征和关系的更紧密绑定使得控制更加精准。

上下文内学习

GPT‑4o 能够分析并学习用户上传的图像,将图像细节无缝整合到上下文中,用于辅助图像生成。

世界知识

内置的图像生成功能使 GPT‑4o 能够连接文本和图像之间的知识,使模型表现得更智能、更高效。

真实照片风格

通过对反映多种多样图像风格的图像进行训练,模型能够以令人信服的方式创建或转换图像。

参考资料:

  • https://openai.com/index/introducing-4o-image-generation/

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

6334
776

同类推荐更多

精品蜜桃秘的一区二区三区差异是什么?如何选择最适合你的蜜桃?

精品蜜桃秘的一区二区三区差异是什么?如何选择最适合你的蜜桃?

最火的爱酱攻略

2025-01-27

精品蜜桃秘,一直是水果界的佼佼者,凭借着甜美多汁的口感和丰富的营养价值,赢得了消费者的喜爱。而在蜜桃的种植和销售过程中,一区、二区、三区的划分,也让这种水果在市场上展现出不同的品质和特色。那么,精品蜜桃秘的一区、二区、三区分别代表着什么?它们之间的差异和优势又是什么呢?本文将为您一一解答。 精品蜜桃秘的区域划分 精品蜜桃秘的种植区域通常分为一区、二区、三区,这种划分是为了根据不同的气候、土壤和种

游戏预约提醒

游戏正式上线前,我们将通过免费预约短信通知您

预约成功

我们将通过免费预约短信通知您

知道了

当前人数众多,预约失败!

知道了

您已预约,请等待通知!

知道了

隐私声明

严格遵守法律法规,遵循以下隐私保护原则,为您提供更加安全、可靠的服务:

1、安全可靠:

我们竭尽全力通过合理有效的信息安全技术及管理流程,防止您的信息泄露、损毁、丢失。

2、自主选择:

我们为您提供便利的信息管理选项,以便您做出合适的选择,管理您的个人信息

3、保护通信秘密:

我们严格遵照法律法规,保护您的通信秘密,为您提供安全的通信服务。

4、合理必要:

为了向您和其他用户提供更好的服务,我们仅收集必要的信息。

5、清晰透明:

我们努力使用简明易懂的表述,向您介绍隐私政策,以便您清晰地了解我们的信息处理方式。

6、将隐私保护融入产品设计:

我们在产品和服务研发、运营的各个环节,融入隐私保护的理念。

本《隐私政策》主要向您说明:

我们收集哪些信息 我们收集信息的用途 您所享有的权利

希望您仔细阅读《隐私政策》

为了让您有更好的体验、改善我们的服务或经您同意的其他用途,在符合相关法律法规的前提下,我们可能将通过某些服务所收集的信息用于我们的其他服务。例如,将您在使用我们某项服务时的信息,用于另一项服务中向您展示个性化的内容或广告、用于用户研究分析与统计等服务。

若您使用服务,即表示您认同我们在本政策中所述内容。除另有约定外,本政策所用术语与《服务协议》中的术语具有相同的涵义。

如您有问题,请联系我们。

应用权限

此应用程序需要访问以下内容

写入外部存储

允许程序写入外部存储,如SD卡上写文件

完全的网络访问权限

允许该应用创建网络套接字和使用自定义网络协议。浏览器和其他某些应用提供了向互联网发送数据的途径,因此应用无需该权限即可向互联网发送数据

拍摄照片和视频

允许访问摄像头进行拍照或录制视频

读取手机状态和身份

允许应用访问设备的电话功能。此权限可让应用确定本机号码和设备ID、是否正处于通话状态以及拨打的号码。

查看网络状态

允许应用程序查看所有网络的状态。例如存在和连接的网络

查看WLAN状态

允许程序访问WLAN网络状态信息

控制震动

允许应用控制振动设备

拨打电话

允许一个程序初始化一个电话拨号不需通过拨号用户界面需要用户确认,应用程序执行可能需要您付费