INDEX // #MODEL-EVALUATION

SYSTEM // ACTIVE // AGGREGATED TELEMETRY FOR ECOSYSTEM NODE

NEWS // 最新资讯 TOTAL: 06

LLM助手能力提升秘籍：量化用户模拟器真实效用

LLM助手能力提升秘籍：量化用户模拟器真实效用

#USER SIMULATORS#LLM AGENTS#REINFORCEMENT LEARNING

美政府与Google DeepMind、微软等合作，审查AI模型确保国家安全

美政府与Google DeepMind、微软等合作，审查AI模型确保国家安全

#FRONTIER MODELS#AI SAFETY#AI GOVERNANCE

17款AI模型小学题惨遭滑铁卢：自信给出错误答案引担忧

17款AI模型小学题惨遭滑铁卢：自信给出错误答案引担忧

#LLMS#AI RELIABILITY#MODEL EVALUATION

研究警示：LLM持续接触“垃圾数据”或致“大脑腐烂”

研究警示：LLM持续接触“垃圾数据”或致“大脑腐烂”

#LLM#DATA QUALITY#COGNITIVE DECLINE

基因大模型评估难？新基准 GENEB 揭示参数量非唯一标准

基因大模型评估难？新基准 GENEB 揭示参数量非唯一标准

#GENEB#GENOMIC MODELS#AI FOR SCIENCE

突破黑盒AI！用蜕变测试解决模型解释的“罗生门效应”

突破黑盒AI！用蜕变测试解决模型解释的“罗生门效应”

#EXPLAINABLE AI#METAMORPHIC TESTING#RASHOMON EFFECT