OpenAI近期推出了其最新图像生成引擎ChatGPT图像2.0,这一版本在功能上实现了显著飞跃。它不再仅仅生成简单的“装饰性”图片,而是能够制作包含详细且准确文本的全页图形,这预示着其在更为复杂的专业应用场景中将发挥重要作用。
一位科技编辑在早期接触图像2.0的预发布版本时,曾观察到其在准确渲染特定品牌元素(如ZDNET标志)方面存在一些不一致。然而,在正式版本发布后,通过一个配置了高级“思维”(Thinking)模型的ChatGPT Plus账户,该编辑对图像2.0进行了一系列广泛而深入的测试,结果显示出显著的改进。
本次测试的关键方法论在于优化品牌一致性的输入。与依赖AI自主识别并从上传网页中提取Logo不同,该编辑主动为每个提示都单独提供了一个ZDNET标志图像。事实证明,这种有针对性的方法极大地增强了AI正确融入品牌识别的能力。此外,值得注意的是其操作背景:由于ZDNET对OpenAI存在数据访问限制,用于测试的文章内容是通过Chrome扩展程序捕获全屏截图后,再提供给ChatGPT进行“阅读”和处理的。
在首次实际测试中,重点评估了品牌Logo的保留和风格遵循能力。向ChatGPT图像2.0发出的明确指令是:“使用ZDNET品牌风格和附带的ZDNET标志,为这篇文章创建一张详细生动的图表。”结果令人瞩目:生成的图表不仅准确地呈现了ZDNET的标志,而且完美地复制了该品牌特定的色彩方案。更关键的是,该图像在文本准确性上表现出色:所有文本元素,即使是图表内细小的倾斜文字,都无误地呈现,这充分展示了图像2.0在复杂视觉输出中保持文本完整性的强大能力。
第二个挑战则延伸至生成风格化的“手绘笔记”(sketchnotes)。这项测试回顾了此前使用Google Nano Banana的经验,当时Nano Banana尽管能生成视觉吸引人的图像,但在手绘笔记的文字准确性方面却屡次遭遇困难。因此,对于ChatGPT图像2.0,测试的难度被有意提升。编辑要求其生成美国《权利法案》的手绘笔记,并明确要求遵循ZDNET独有的品牌风格。这种将详细的关键文本内容与精准的视觉品牌需求相结合的测试,旨在严谨评估AI在专业设计和内容创作工作流程中提供高价值资产的能力。