OpenAI将图像生成功能直接集成到CHATGPT中,允许用户创建图像而无需离开聊天界面。
该公司宣布了该功能周二作为其更广泛的推动,使AI工具在不同媒体上更有用和访问的一部分,并保持在AI艺术界的相关性。
该功能是dall·e 3的演变,Openai Image Generator,它发射在2023年9月,但在偏爱下一代模型,包括Flux,Midjourney V6,SD 3.5,Recraft和Reve在内的AI爱好者中不受欢迎。
在此版本之前,OpenAI在同一平台上提供了两个不同的型号,GPT生成文本和DALL·E 3处理图像生成。
现在,GPT-4O将自己完成所有操作,而Dall·E 3将消失。
“ GPT -4O图像生成在准确渲染文本,精确遵循提示以及利用4O固有的知识基础和聊天环境中出色 - 包括转换上传的图像或将其用作视觉灵感。”官方博客文章.
DALL·E 3的集成在公司计划中继续良好,以使GPT-4O成为“ OMNI”模型,该模型训练有多模式数据,并能够处理所有任务。结果是一个模型比其前辈更有能力,准确和聪明。
Openai首席执行官Sam Altman在显示GPT-4O新功能的视频中说:“我们知道我们已经让您等待了,但是我们认为这确实值得,我们认为您会喜欢它。” “向前迈出的一大步,向您解释它的最佳方法就是展示它。”
在视频中,该公司通过几个示例展示了系统功能,包括解释相对性理论的漫画页 - 与英语和普通话中的输入 - 基于个人和真实照片的Custom交易卡,结合了多个图像与透明背景的纪念硬币,以及基于透明背景的多个图像,以及基于非常准确的图像,并具有非常准确的图像,并且具有较长的长期和详细的促使。
该模型在生成图像方面速度很慢,但似乎非常准确。奥特曼(Altman)指出,质量的显着升级值得等待更长的时间。
阿尔特曼在演示中说:“图像比我们以前的图像生成(模型)要慢得多,但令人难以置信的好。我们认为这非常值得等待。” “随着时间的流逝,我们还可以使其更快。”
推出似乎正在逐渐发生,并且我们无法在发稿时开始使用新型号。
用户可以根据图像的出现来判断他们正在使用的系统:除了明显的质量差距外,dall·e 3图像在加载屏幕后完全形成,而新的GPT-4O则可以实时从上到下逐渐呈现图像。
该公司强调,该技术不仅仅是创建精美的图像。
“这个版本真正令人兴奋的是,现在这些模型可以实际上可以看到他们知道的知识,并以视觉方式将其外部化。” Openai的一位研究科学家解释说,Sam Altman邀请他们谈论这一新功能。
这种功能允许教育应用,例如详细的科学图或具有准确渲染文本的信息海报,甚至具有主题一致性的图像编辑。
Openai也有实施的护栏为了防止产生深泡沫,非法含量和去除水印。
尽管生成的图像没有可见的水印,但它们将包括C2PA元数据以将其识别为AI创建。该公司还正在开发跟踪图像出处的工具。
该公司计划将功能带入其API,使开发人员能够将技术集成到自己的应用程序中。 Openai使用条款还说用户将保留其生成的图像所有权,但要遵守公司使用政策。
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)和乔什·奎特纳(Josh Quittner)
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com