⚡ News

阿里发布自研AI芯片:打通大模型训练与推理,万卡互联效率翻倍

阿里发布自研AI芯片:打通大模型训练与推理,万卡互联效率翻倍

在最新举办的技术峰会上,阿里巴巴正式发布了其全新一代自研AI处理器。该芯片旨在打通大语言模型(LLM)全生命周期的算力瓶颈,提供集大模型训练与高效推理于一体的通用算力解决方案,为全球开发者及企业客户提供更具性价比的算力选择。

在核心架构方面,该芯片采用了先进的Chiplet(芯粒)技术,集成了专为Transformer网络架构设计的硬件加速单元(TUP)。新一代芯片完美支持FP8、INT4等混合精度计算,其单卡训练性能相比前代产品提升了近3倍,而在处理千亿参数大模型的多模态推理时,时延降低了50%以上,每瓦特性能(PPW)大幅跃升。

为了应对大规模分布式训练中的通信瓶颈,阿里巴巴在这款芯片中集成了自研的高速互联技术,单芯片可提供高达3.2Tbps的互联带宽。结合阿里云自研的“灵骏”无损网络协议,该芯片支持构建超万卡规模的超大算力集群,在大规模并行训练任务中的线性加速比超过90%,显著缩短了万亿参数模型的迭代周期。

在软硬协同方面,该芯片做到了对主流深度学习框架(如PyTorch、TensorFlow)以及自研大模型生态的无缝兼容。它深度融入了阿里云“百炼”(Bailian)大模型服务平台和ModelScope(魔搭)社区。企业用户无需复杂的底层代码修改,即可实现大模型从开发、微调到生产级推理的快速无缝迁移,极大地降低了AI应用的落地门槛。

【AgentUpdate 深度解析】阿里巴巴此次推出兼顾训练与推理的新一代自研 AI 芯片,是其构建闭环 MaaS(模型即服务)生态的战略性一步。相较于 NVIDIA Blackwell 架构在极致算力上的绝对优势,阿里的核心壁垒在于“软硬一体”的云端协同。AI Agent 的爆发对底层算力提出了双重挑战:既需要极低延迟的多模态推理以支撑实时交互,又需要高性价比的异构算力以支撑 Agent 内部复杂的 ReAct(推理-行动)循环与高频工具调用。阿里新芯片在硬件层对 Transformer 算子和混合精度的高效支持,能够显著降低 Agent 在长上下文推理中的 Token 成本。长远来看,这不仅能帮助通义系列模型在市场竞争中保持价格优势,更将通过阿里云百炼平台,为全球开发者提供一个极具成本效益的 AI Agent 基础设施平台,加速智能体从“效率玩具”向“工业级生产力”的跨越。

↗ 阅读原文