OpenAI近日正式推出其备受瞩目的图像生成模型GPT-Image-2,该模型现已通过API和ChatGPT全面上线,并提供“思考型”和非思考型两种变体。此举标志着OpenAI在图像生成领域迈出重要一步,旨在超越当前市场上的主流模型,如Nano Banana 2。
此次发布正值市场传言OpenAI内部曾因“聚焦”战略而解散Sora团队之际,这使得GPT-Image-2的推出既令人振奋又略显意外,再次确认图像生成仍是OpenAI的重点发展方向。模型在实际表现中展现出极高的能力,尤其在处理复杂文本细节和保持一致性方面表现突出。
GPT-Image-2是OpenAI此次推出的核心产品,具体体现为ChatGPT Images 2.0及其底层的gpt-image-2模型,已全面部署于ChatGPT、Codex和API。其核心亮点包括:更强的文本渲染能力、更高的布局保真度、强大的编辑功能、多语言支持以及图像的“思考”能力。OpenAI表示,当与思考模型结合时,GPT-Image-2能够进行网络搜索、生成多个候选方案、进行自我检查,并输出幻灯片、信息图表、图示、UI原型和二维码等多种复杂图像成果。
目前,Figma、Canva、Firefly、fal和Hermes Agent等下游工具已开始集成此模型。
基准测试结果显示GPT-Image-2实现了显著的性能飞跃,尤其在实用图像任务中表现亮眼。根据Arena排行榜数据,GPT-Image-2在所有图像生成榜单上均位列第一,其中文本到图像任务得分为1512,单图像编辑1513,多图像编辑1464。在文本到图像任务中,其Elo分数领先下一位模型高达242分。独立评测普遍认为,这不仅是生成更美观的艺术品,更重要的是该模型在UI设计、原型制作、文档编制、生产力视觉化以及参考驱动设计循环等实际应用中具有极高的可用性。
GPT-Image-2最引人注目的系统级影响在于,图像生成正逐步成为代码智能体(coding agents)的前端。未来,用户可以通过图像生成UI规范,然后由Codex或其他代码智能体根据这一视觉参考进行代码实现。