阿里发布自研AI芯片：打通大模型训练与推理，万卡互联效率翻倍

在最新举办的技术峰会上，阿里巴巴正式发布了其全新一代自研AI处理器。该芯片旨在打通大语言模型（LLM）全生命周期的算力瓶颈，提供集大模型训练与高效推理于一体的通用算力解决方案，为全球开发者及企业客户提供更具性价比的算力选择。

在核心架构方面，该芯片采用了先进的Chiplet（芯粒）技术，集成了专为Transformer网络架构设计的硬件加速单元（TUP）。新一代芯片完美支持FP8、INT4等混合精度计算，其单卡训练性能相比前代产品提升了近3倍，而在处理千亿参数大模型的多模态推理时，时延降低了50%以上，每瓦特性能（PPW）大幅跃升。

为了应对大规模分布式训练中的通信瓶颈，阿里巴巴在这款芯片中集成了自研的高速互联技术，单芯片可提供高达3.2Tbps的互联带宽。结合阿里云自研的“灵骏”无损网络协议，该芯片支持构建超万卡规模的超大算力集群，在大规模并行训练任务中的线性加速比超过90%，显著缩短了万亿参数模型的迭代周期。

在软硬协同方面，该芯片做到了对主流深度学习框架（如PyTorch、TensorFlow）以及自研大模型生态的无缝兼容。它深度融入了阿里云“百炼”（Bailian）大模型服务平台和ModelScope（魔搭）社区。企业用户无需复杂的底层代码修改，即可实现大模型从开发、微调到生产级推理的快速无缝迁移，极大地降低了AI应用的落地门槛。

【AgentUpdate 深度解析】阿里巴巴此次推出兼顾训练与推理的新一代自研 AI 芯片，是其构建闭环 MaaS（模型即服务）生态的战略性一步。相较于 NVIDIA Blackwell 架构在极致算力上的绝对优势，阿里的核心壁垒在于“软硬一体”的云端协同。AI Agent 的爆发对底层算力提出了双重挑战：既需要极低延迟的多模态推理以支撑实时交互，又需要高性价比的异构算力以支撑 Agent 内部复杂的 ReAct（推理-行动）循环与高频工具调用。阿里新芯片在硬件层对 Transformer 算子和混合精度的高效支持，能够显著降低 Agent 在长上下文推理中的 Token 成本。长远来看，这不仅能帮助通义系列模型在市场竞争中保持价格优势，更将通过阿里云百炼平台，为全球开发者提供一个极具成本效益的 AI Agent 基础设施平台，加速智能体从“效率玩具”向“工业级生产力”的跨越。

阿里发布自研AI芯片：打通大模型训练与推理，万卡互联效率翻倍

推荐阅读

OpenAI投资2.34亿美元在新加坡建AI实验室，加速亚太布局

阿拉伯语金融情绪分析突破：基于大模型的沙特股市NLP框架

综述大模型数学推理：一文看懂架构、评估与Agent未来挑战