生成式推荐技术因其卓越的扩展潜力和强大的模型能力,正日益成为业界关注的焦点。然而,在大规模广告场景中部署实时生成式推荐,并非简单套用大型语言模型(LLM)的训练和服务模式即可实现。
为了应对这些挑战,快手提出并开发了一款面向生产环境的生成式推荐系统——GR4AD(Generative Recommendation for ADdvertising)。该系统在架构、学习和服务层面进行了协同设计,以确保其在大规模应用中的性能和效率。
在核心技术方面,GR4AD引入了多项创新。首先,在分词(tokenization)环节,系统提出了UA-SID(Unified Advertisement Semantic ID,统一广告语义ID)机制,用以捕捉并表示复杂的业务信息,为模型提供更丰富、准确的输入。
其次,针对多候选短序列生成的需求,GR4AD推出了LazyAR(Lazy Autoregressive)懒惰自回归解码器。该解码器巧妙地放宽了层级依赖,在保证推荐效果的同时,显著降低了推理成本,从而在有限的服务预算下实现了规模化扩展。
为了确保模型优化与实际业务价值高度对齐,GR4AD采纳了VSL(Value-Aware Supervised Learning,价值感知监督学习)方法。在此基础上,系统进一步提出了RSPO(Ranking-Guided Softmax Preference Optimization,排序引导的Softmax偏好优化)算法。RSPO是一种排序感知的列表级强化学习算法,能够基于列表级指标优化以价值为导向的奖励,实现持续的在线更新,从而最大化业务收益。
在在线推理阶段,GR4AD还引入了动态束搜索服务(dynamic beam serving)技术。该技术能够根据不同的生成层级和在线负载,自适应地调整束宽(beam width),有效控制计算资源消耗,确保系统在高并发场景下的稳定性和效率。
大规模在线A/B测试结果令人鼓舞。相比于现有的基于DLRM(Deep Learning Recommendation Model)的推荐栈,GR4AD系统实现了高达4.2%的广告收入提升。这一显著增长不仅体现了模型规模扩展带来的收益,也印证了推理阶段优化所贡献的持续增益。目前,GR4AD已全面部署在快手广告系统,服务于超过4亿用户,成功实现了高吞吐量的实时推荐。