News

揭秘GPT Image 2核心华人团队:师徒网络撑起AI图像新高度

揭秘GPT Image 2核心华人团队:师徒网络撑起AI图像新高度

GPT Image 2 正式上线后,其在AI图像生成领域确立了领先地位,模型竞技场中以241分的绝对优势遥遥领先。然而,除了跑分数据,其背后的研发团队名单同样引人关注。

OpenAI 搞出这个核心模型的团队仅有13人,其中华人研究员占据了半壁江山。深入剖析他们的履历,不难发现许多人在加入OpenAI之前,就已经在中国的高校、实验室乃至科研夏令营中结识,显示出AI圈内部紧密的“熟人局”和“师徒传承”网络。

陈博远是GPT Image 2的绝对核心成员,其成长历程是华人学术界“传帮带”的典型缩影。高中时,他在无锡参加科研夏令营,当时未学编程的他在此结识了日后成为Google DeepMind资深研究员的夏斐。夏斐向他介绍了深度学习,成为他步入AI领域的引路人。

此后两人一直保持联系。陈博远本科就读于UC Berkeley计算机科学与数学专业,以3.96的GPA进入EECS荣誉班,并师从Pieter Abbeel从事研究,还曾于2017年创办机器人教育公司。在MIT攻读博士第一年遭遇论文产出困境时,夏斐提供了关键支持,协助他发表了有影响力的论文NLMap。夏斐还曾两次邀请他到DeepMind实习,期间他主导搭建了多模态大语言模型数据合成管线,其总结的指令微调技术被应用于Gemini 2.0的研发。带着这些宝贵积累,陈博远于2025年6月加入OpenAI,同时他也是Sora视频生成团队的成员。

在MIT期间,陈博远师从助理教授Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)从事“世界模型”方向的研究。而Kiwhan Song正是同一实验室、同一导师门下的同门师兄弟。Sitzmann实验室的核心研究方向是让AI通过心理模拟器预测物理世界变化,而非单纯模仿像素,这种思路可能直接影响了GPT Image 2的技术方向。两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》等论文,探索如何将扩散模型与序列生成结合,让模型在生成内容前先理清时序和空间因果逻辑。值得一提的是,Kiwhan Song也是“长脖子”贴纸风格漫画头像的创作者。

除了这两位同门,团队中还有两位华人成员来自工业界积累多年的研究员网络。Jianfeng Wang在微软工作近9年,担任首席研究员,专注于大规模多模态表示学习,在DALL-E 3研发期间就与OpenAI团队深度合作。加入OpenAI后,他主要负责提升模型的指令遵循能力和对世界知识的理解。Bing Liang则在谷歌深耕5年多,作为高级软件工程师参与了Imagen 3、Veo视频模型和Gemini多模态系列的核心研发,于去年8月加入OpenAI,负责图像生成相关研究。他们不仅带来了个人能力,更重要的是竞争对手多年积累的工程经验和教训,为团队少走了不少弯路。

Weixin Liang 和 Yuguang Yang 是团队中另一组值得关注的组合,两人都毕业于浙江大学竺可桢学院,拥有相同的本科背景。

Yuguang Yang的履历跨度很大:本科在竺可桢学院学习工程,博士阶段则在约翰斯·霍普金斯大学攻读计算化学物理与机器学习。之后他先后在亚马逊Alexa从事语音识别深度学习研究,又去微软Bing负责查询理解与大规模检索。他还曾在清华大学做访问研究,探索用于纳米机器人在人体血管中导航的强化学习算法,期间发表了7篇同行评审期刊论文。这种跨学科的积累在GPT Image 2的发布演示中得到了直接体现。

相较之下,Weixin Liang的成长路径更偏学术。他在斯坦福AI实验室(SAIL)攻读博士,期间与Christopher Manning、李飞飞、James Zou等多位知名教授有过合作。在Meta实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对Transformer的每个非嵌入参数实施模态感知稀疏化处理,最终将多模态预训练的计算成本降低了66%,并在30B参数规模下完成了预训练验证。MoT凭借模态解耦的注意力机制,解决了多模态模型因同时处理文本和高分辨率图像而导致的计算量指数级增长问题。这项研究被誉为“推动多模态理解与生成统一的奠基性贡献”。

近年来,清华姚班、浙大竺可桢学院、中科大少年班、上海交大等中国顶尖高校的毕业生已成为OpenAI、Anthropic、DeepMind、Meta等海外AI实验室的核心力量。

除上述成员外,团队还有多位核心研究者:Kenji Hata,斯坦福计算机科学硕士,曾任职Google Research,在OpenAI参与4o图像生成(即GPT-Image-1)、Sora 2等模型研发,是模型迭代经验最丰富的成员之一。Ayaan Haque,加入OpenAI前为Luma AI研究员,参与训练视频生成模型Dream Machine,其处理高维时序数据的能力在GPT Image 2及思考模式研发中发挥作用。Dibya Bhattacharjee,耶鲁计算机科学本硕,曾在谷歌工作近5年,2024年2月加入OpenAI负责图像生成研究,在发布活动中演示了模型多规格生成能力,是模型输出格式“开箱即用”的关键成员。Mengchao Z.,上海交大本科、德克萨斯A&M大学硕士,工程背景扎实,曾主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。

此外,团队里仍有多名成员的身份信息暂时无法查询。

↗ 阅读原文