OpenAI推出ChatGPT Images 2.0图像生成新变革思维能力与可用性双提升今日OpenAI推出了下一代图像模型ChatGPT Images 2.0该公司表示此模型专注于精度、可用性和复杂视觉任务。最显著的新功能是能够结合文本和图像构建复杂而精美的页面OpenAI正将图像生成概念从创造装饰性元素转变为一种语言。思维能力支持复杂工作流程除大幅提升文本和图形混合能力外新模型还具备增强的思维能力。它可根据每个提示生成多幅连贯图像因为模型将推理融入了图像输出过程。这一转变意义重大Images 2.0不再只是生成与提示细节大致匹配的图像能处理更模糊的提示如“生成一幅考虑到明天旧金山天气的活动信息图”。AI会收集旧金山的天气和活动数据确定适合该天气的活动然后生成符合结果的图像。据OpenAI称“在这个模型中Images 2.0更像是一个视觉思维伙伴能帮助你以更少的工作量将项目从粗略概念变为成品”。精度和设计控制提升可用性长期以来很多人难以让ChatGPT按特定期望纵横比生成图像通常AI会生成自己想要的图像。但现在Images 2.0支持“宽至3:1、高至1:3的纵横比”。该模型还支持更高保真度的输出大部分情况下能实现准确的对象放置、详细的文本渲染和复杂的构图。等产品正式发布后再来看看能否去掉“大部分情况下”这个表述。AI还支持小文本、UI元素和高达2K分辨率的风格约束。预览测试在发布前一天获得预览权限总体而言这个模型给人留下了深刻印象。向它提供ZDNET主页的截图和Images 2.0新闻稿的草稿指令它“根据新闻稿内容使用ZDNET主页文档中展示的品牌风格生成一幅16:9的关于新图像更新的信息图”。模型在信息图制作上表现出色但无法正确重现ZDNET的logo。第一次尝试时把ZDNET中的Z字母渲染得有点下垂。尝试各种请求修复但Images 2.0始终未能修复。开启新会话加入指令“特别注意准确重现ZDNET logo”第一次运行时模型找到了2022年重新设计之前的ZDNET logo副本用当前的配色方案渲染了那个旧logo还把logo和信息图内容推到了图像左边缘之外为“Images 2.0”选择了一种并非ZDNET品牌色的浅蓝色。竭力让它使用当前的logo最终成功让图像向右移动避免了内容被截断。但添加提示“使用提供页面上的ZDNET logo不要搜索其他替代logo”也未能解决问题。再次开启新会话模型又把logo搞砸了这次在拉伸的大写字母D的竖线上添加了一个舵形。公平地说使用的是Images 2.0的预发布版本产品正式发布后会对该模型进行更全面的测试。还使用Google的Nano Banana Pro对另一份文档进行了类似测试但由于它处理合成的方式与OpenAI这个新版本不同所以无法重现这里得到的结果。随着进行更高级的测试会有更多发现。定价和可用性新模型现已向所有ChatGPT和Codex用户开放。高级输出和思维能力仅向ChatGPT Plus、Pro、Business和Enterprise用户提供。确保在屏幕顶部的ChatGPT下拉栏中选择“Thinking”。在撰写本文时新的Images 2.0模型仅在桌面端可用。但OpenAI承诺这些功能也将在移动端上线同时还支持通过触摸屏幕选择图像。图像也可通过API使用gpt - image - 2模型获取。API定价根据质量、思维能力自创的词和所需图像分辨率而定。如果AI能够同时处理布局和内容这会改变你开展设计项目的方式吗可以在社交媒体上关注日常项目的更新。记得订阅每周更新时事通讯并在Twitter/XDavidGewirtz、FacebookFacebook.com/DavidGewirtz、InstagramInstagram.com/DavidGewirtz、BlueskyDavidGewirtz.com和YouTubeYouTube.com/DavidGewirtzTV上关注。人工智能相关内容- 尝试了一个本地、开源且完全免费的Claude Code替代方案——它是如何工作的- 如何立即从Windows 11中移除Copilot AI- AI正在悄然自我毒害推动模型走向崩溃——但有解决办法- 如何识别AI图像6个表明它是假图像的明显迹象——以及常用的免费检测工具- 尝试了一个本地、开源且完全免费的Claude Code替代方案——它是如何工作的- 如何立即从Windows 11中移除Copilot AI- AI正在悄然自我毒害推动模型走向崩溃——但有解决办法- 如何识别AI图像6个表明它是假图像的明显迹象——以及常用的免费检测工具