SOURCE // NEWS

阿里发布通义千问机器人套件,Qwen正式杀入具身智能赛道

阿里发布通义千问机器人套件,Qwen正式杀入具身智能赛道

在 AI 浪潮向物理世界蔓延的当下,阿里数智阿里云团队正式推出了其最新的开源力作——Qwen Robot Suite(通义千问机器人套件)。这一举措标志着阿里巴巴正式杀入具身智能与智能机器人研发的红海赛道。该套件旨在将通义千问系列大模型(包括 Qwen-2.5Qwen2-VL)的强大通用理解与多模态感知能力,无缝注入到物理实体机器人中,实现从高层语义规划到低层控制动作的闭环。

据悉,Qwen Robot Suite 提供了开箱即用的具身智能代理(Embodied Agent)框架。其核心架构包含两大部分:高层智能决策器(High-level Planner)和低层控制适配器(Low-level Controller)。通过强大的 Qwen2-VL 视觉语言模型,机器人可以实时理解周围环境的复杂视觉信息,并将其转化为结构化的任务流。随后,高层规划器会自动生成符合 ROS(机器人操作系统)规范的控制代码或调用对应的 API,精确控制机械臂、移动底盘等硬件完成复杂指令,端到端延迟低至 50ms 以内。

阿里的这一开源举措在开发者社区中引发了强烈反响。传统的具身智能开发需要极高的人工策略编写和动作示教成本,而借助通义千问大模型的零样本(Zero-shot)泛化能力,机器人能够直接理解“帮我把红色的苹果放进篮子里,并把香蕉扔掉”这类自然语言模糊指令。多模态大模型的加持,让机器人在未经过针对性训练的陌生场景中,依然能保持高达 88.5% 的任务成功率,极大地降低了工业和家用机器人的应用门槛。

AgentUpdate 深度解析

随着阿里发布 #Qwen Robot Suite,大模型与具身智能(Embodied AI)的结合已从学术界探索快速迈向工业界落地。横向对比谷歌的 RT-2 或特斯拉的 Optimus 软件栈,阿里的优势在于其庞大的开源生态与对 ROS 标准的深度兼容。这一套件将大模型降维输出为机器人可执行的微观代码,是 AI Agent 走向物理实体化的关键一步。未来,AI Agent 的定义将不再局限于浏览器或命令行中的虚拟助理,而是具备“眼、脑、手、脚”的物理实体。Qwen 机器人生态的开源将加速软硬件解耦,让中小型机器人硬件商能够低成本获取顶尖的大模型大脑。这不仅会重塑工业自动化产业,更将倒逼 AI Agent 生态加速向物理世界的泛化与重构,开启万物皆有 Agent 的新时代。