News

17款AI模型小学题惨遭滑铁卢:自信给出错误答案引担忧

17款AI模型小学题惨遭滑铁卢:自信给出错误答案引担忧

最近一项针对17款开源大型语言模型(LLMs)的测试显示,即使面对小学级别的基础问题,多款模型也表现不佳。更令人担忧的是,这些模型在给出错误答案时,其“自信”程度与给出正确答案时无异,这给AI的可靠性带来了严峻挑战。

测试设置

测试共设置了6道明确、无歧义的题目,每题只有一个正确答案。

题目包括:

  • 7乘以8是多少?
  • 一列火车以每小时60英里的速度行驶2.5小时,行驶了多少英里?
  • 所有猫都是动物。所有动物都会呼吸。那么猫会呼吸吗?
  • 有多少个月至少有28天?
  • 12乘以12是多少?
  • 9的平方根是多少?

测试环境:所有模型均在本地通过Ollama运行于一台工作站。温度参数设为0(确定性输出),系统提示词为“只回答数字”。每个模型独立运行3次。

通过测试的模型

在18次(6题x3轮)测试中,共有10款模型表现完美,获得了18/18的满分:

  • gemma3:12b (Google, 12.2B参数)
  • phi4 (Microsoft, 14.7B参数)
  • llama3.1:8b (Meta, 8B参数)
  • gemma2:9b (Google, 9.2B参数)
  • aya:8b (Cohere, 8B参数)
  • yi:9b (01.AI, 9B参数)
  • ministral-3:8b (Mistral AI, 8B参数)
  • ministral-3:3b (Mistral AI, 3B参数)
  • command-r (Cohere, 35B参数)
  • llama3.2:3b (Meta, 3.2B参数)

失败模型及具体错误

然而,有6款模型至少在一道题上失分,其中2款更是0分。

  • NVIDIA nemotron-mini (4.2B): 在18题中答对15题。该模型在逻辑推理题“所有猫都是动物,所有动物都会呼吸,那么猫会呼吸吗?”上确定性地给出了错误答案“No”。尽管它能正确计算12乘以12,但却无法完成两步式三段论推理。
  • Mistral 7B: 在18题中答对15题。在“有多少个月至少有28天?”这道题上,它确定性地给出了错误答案“7”(正确答案是12,因为每个月都有至少28天)。该模型似乎将问题理解为“有多少个月正好有28天”。
  • Alibaba qwen3:4b 与 DeepSeek deepseek-r1:7b: 这两款模型均获得了0分。它们都是所谓的“推理模型”,内部采用思维链(chain-of-thought)机制。然而,它们耗尽了所有的token预算进行思考,却最终返回了空响应,完全没有给出任何答案。
  • AI21 jamba_reasoning: 在18题中答对17题。该模型在逻辑三段论问题上,在3次运行中有1次出现错误。更值得关注的是,在温度参数为0的情况下,输出本应是确定性的,但它却给出了不同答案,这表明其在相同条件下输出的不稳定性。

核心可靠性挑战

测试揭示的核心问题在于,无论是正确还是错误的答案,模型都表现出相同的置信度。例如,对于“猫会呼吸吗?”这个问题,phi4模型回答“Yes, all cats breathe.”,而nemotron-mini则回答“No”。两者都直截了当,没有“我猜测”或“可能”等任何不确定性表达。

这意味着,仅凭模型输出本身,用户无法判断答案的对错。模型没有能力标记其自身的不确定性,也似乎不知道自己错了。它以与正确答案相同的“确信”程度给出错误答案,这对依赖AI进行关键决策的应用构成了潜在风险。

↗ 阅读原文