在2026中国AIGC产业峰会上,香港大学助理教授黄超系统梳理了其团队在AI Agent领域的核心思考与前沿实践。他提出,迈入AI原生时代,行业不应陷入“教Agent如何像人类一样去适应数字世界”的怪圈,而应当“重新为Agent设计数字世界”。
黄超团队的第一项实践是极简主义。针对目前市面上动辄数十万行代码的庞大Agent系统(如发布时拥有43万行代码的OpenClaw),他们反其道而行之,推出了极致轻量化的通用Agent开源框架——nanobot。由于其易用性与极低的上手门槛,nanobot在开源后连续100天保持日更迭代,全球下载量迅速突破20万次,被DeepSeek推荐为全球15个精品Agent之一,并在OpenRouter通用Agent榜单中位列第四。基于极简的基底,团队计划用nanobot挑战需要跨多软件生态、调度异构工具的长程任务(Long-horizon tasks),以验证其在真实动态生产环境中的协同与演进能力。
基于将Agent从“AI助手”升维至“数字劳动力”的愿景,黄超团队提出了全新的交互范式——CLI-Anything。黄超指出,相比于需要高额解析成本且准确率受限的图形用户界面(GUI),命令行接口(CLI)才是Agent最自然的“母语”。与其强迫Agent去学习人类的GUI,不如将3D建模、多媒体剪辑等专业软件重新封装为CLI。这实现了交互范式的重构:让数字世界直接用AI的语言与Agent对话。
此外,团队在Agent的自进化(Self-Evolution)机制上进行了深入探索。自进化主要分为内向型(Internal)和外向型(External)两条路径。Internal模式聚焦于优化推理链路与参数调整,但往往受限于特定场景;而External模式则通过“技能积累(Skill Accumulation)”来不断扩充工具箱。黄超更看好外向型进化,这契合了“重构数字世界”的理念。为了验证这一协同生态,团队设计了一项自动化科研实验,利用8个Agent协同调度8张H100显卡进行分布式模型训练。实验表明,合理的任务分发能大幅提升效率,但当Agent规模继续扩大时,由于协调开销指数级增长,边际收益开始递减。这表明Agent Swarm(Agent集群)的 Scaling Law 存在一个最优临界阈值。
最后,黄超总结了Agent设计的底层逻辑。他认为,Agent的本质是优雅的“ReAct(Reasoning-Action-Observation)”认知循环。成功的生产力Agent不应只追求避错,而应具备从真实任务中“感知错误并优雅降级”的学习能力。在Computer Use探索中,CLI相比GUI拥有更低的Token成本和更高的精确度,将是未来Agent演进的核心方向。
【AgentUpdate 深度解析】黄超教授提出的“CLI-Anything”范式,直击了当前Computer Use技术路线的痛点。现阶段以Anthropic Claude Computer Use为代表的GUI视觉解析方案,面临着高昂的Token开销、多步推理延迟以及由于界面更新导致的鲁棒性差等瓶颈。将GUI重构为CLI,本质上是将“非结构化的视觉感知”降维为“结构化的语义控制”,这不仅能显著降低LLM的推理负载,还为Agent的高频、高并发调用奠定了确定性基础。从长远来看,这预示着软件工程的一场深刻变革:未来的SaaS和企业软件将不再仅为人类视觉习惯设计,而是必须提供“Agent-First”的轻量化接口。这种软硬件及应用层向Agent生态的主动妥协与重构,将彻底加速AI Agent从辅助性工具向自主性“数字劳动力”的跨越。