SOURCE // LABS

基因大模型评估难?新基准 GENEB 揭示参数量非唯一标准

基因大模型评估难?新基准 GENEB 揭示参数量非唯一标准

基因组基础模型(Genomic Foundation Models, GFMs)近年发展迅速,但由于基准碎片化、评估协议不兼容以及任务特定报告的差异,评估这些模型的实际进展变得异常困难。目前,各种模型宣称的“优越性”或“泛化能力”在很大程度上无法进行直接和公平的比较。

为了解决这一痛点,研究人员推出了 GENEB,这是一个大规模的诊断性基准(Diagnostic Benchmark)。GENEB 采用统一的、基于探针(probing-based)的评估协议,系统性地评估了 40个基因组基础模型。这些评估覆盖了跨越 13 个功能类别的 100个下游任务,并特别引入了少样本(few-shot)场景,从而在统一的标尺下审视这些模型的真实性能。

GENEB 的研究结果揭示了当前基因组 AI 领域的几个严峻现实。首先,综合排行榜(aggregate leaderboards)极其不稳定,模型排名在不同的任务类别之间会发生剧烈波动。其次,扩大模型参数量(model scale)带来的性能提升非常有限且不连续。相反,模型架构(architecture)和预训练数据对齐(pretraining alignment)的契合度,往往比单纯的参数规模更为关键。

总的来说,GENEB 不仅暴露了当前评估实践的局限性,还为基因组机器学习领域建立了一个标准化的参考框架,帮助研究人员进行原则性对比和基于类别的模型选择。

AgentUpdate 深度解析

随着 AI Agent 从文本、代码向生物医药等“AI for Science”深水区演进,基因组基础模型正成为控制生物实体行为的“新型大脑”。然而,由于生物学任务的异构性,构建泛化型的生物 Agent 步履维艰。GENEB 基准的推出不仅是对基因模型的评测,更为面向生命科学的具身智能(Scientific Agents)提供了急需的“测试沙盒”。它揭示了一个关键趋势:未来的生物 Agent 绝不能简单依赖单一大模型,而必须采用“多模型专家路由”架构。根据不同基因组预测任务(如启动子识别 vs. 剪接位点预测)的特异性,Agent 调度器需要精准路由至经过特定架构和预训练对齐的最优模型。GENEB 推动了生物学 Agent 评测从“唯参数论”向“任务感知型”演进,对构建可信、高泛化性的科研 Agent 具有里程碑意义。