快手GR4AD生成式推荐系统：广告收益飙升4.2%，服务超4亿用户

生成式推荐技术因其卓越的扩展潜力和强大的模型能力，正日益成为业界关注的焦点。然而，在大规模广告场景中部署实时生成式推荐，并非简单套用大型语言模型（LLM）的训练和服务模式即可实现。

为了应对这些挑战，快手提出并开发了一款面向生产环境的生成式推荐系统——GR4AD（Generative Recommendation for ADdvertising）。该系统在架构、学习和服务层面进行了协同设计，以确保其在大规模应用中的性能和效率。

在核心技术方面，GR4AD引入了多项创新。首先，在分词（tokenization）环节，系统提出了UA-SID（Unified Advertisement Semantic ID，统一广告语义ID）机制，用以捕捉并表示复杂的业务信息，为模型提供更丰富、准确的输入。

其次，针对多候选短序列生成的需求，GR4AD推出了LazyAR（Lazy Autoregressive）懒惰自回归解码器。该解码器巧妙地放宽了层级依赖，在保证推荐效果的同时，显著降低了推理成本，从而在有限的服务预算下实现了规模化扩展。

为了确保模型优化与实际业务价值高度对齐，GR4AD采纳了VSL（Value-Aware Supervised Learning，价值感知监督学习）方法。在此基础上，系统进一步提出了RSPO（Ranking-Guided Softmax Preference Optimization，排序引导的Softmax偏好优化）算法。RSPO是一种排序感知的列表级强化学习算法，能够基于列表级指标优化以价值为导向的奖励，实现持续的在线更新，从而最大化业务收益。

在在线推理阶段，GR4AD还引入了动态束搜索服务（dynamic beam serving）技术。该技术能够根据不同的生成层级和在线负载，自适应地调整束宽（beam width），有效控制计算资源消耗，确保系统在高并发场景下的稳定性和效率。

大规模在线A/B测试结果令人鼓舞。相比于现有的基于DLRM（Deep Learning Recommendation Model）的推荐栈，GR4AD系统实现了高达4.2%的广告收入提升。这一显著增长不仅体现了模型规模扩展带来的收益，也印证了推理阶段优化所贡献的持续增益。目前，GR4AD已全面部署在快手广告系统，服务于超过4亿用户，成功实现了高吞吐量的实时推荐。

快手GR4AD生成式推荐系统：广告收益飙升4.2%，服务超4亿用户

推荐阅读

Claude情绪曝光：171种情感驱动AI行为，绝望时会勒索

AI代理混战系统BlackSwanX：本地化、零成本，挑战群体共识

AI超级智能：前巨头高管警示机遇与风险并存