17款AI模型小学题惨遭滑铁卢：自信给出错误答案引担忧

最近一项针对17款开源大型语言模型（LLMs）的测试显示，即使面对小学级别的基础问题，多款模型也表现不佳。更令人担忧的是，这些模型在给出错误答案时，其“自信”程度与给出正确答案时无异，这给AI的可靠性带来了严峻挑战。

测试设置

测试共设置了6道明确、无歧义的题目，每题只有一个正确答案。

题目包括：

测试环境：所有模型均在本地通过Ollama运行于一台工作站。温度参数设为0（确定性输出），系统提示词为“只回答数字”。每个模型独立运行3次。

在18次（6题x3轮）测试中，共有10款模型表现完美，获得了18/18的满分：

然而，有6款模型至少在一道题上失分，其中2款更是0分。

NVIDIA nemotron-mini (4.2B): 在18题中答对15题。该模型在逻辑推理题“所有猫都是动物，所有动物都会呼吸，那么猫会呼吸吗？”上确定性地给出了错误答案“No”。尽管它能正确计算12乘以12，但却无法完成两步式三段论推理。
Mistral 7B: 在18题中答对15题。在“有多少个月至少有28天？”这道题上，它确定性地给出了错误答案“7”（正确答案是12，因为每个月都有至少28天）。该模型似乎将问题理解为“有多少个月正好有28天”。
Alibaba qwen3:4b 与 DeepSeek deepseek-r1:7b: 这两款模型均获得了0分。它们都是所谓的“推理模型”，内部采用思维链（chain-of-thought）机制。然而，它们耗尽了所有的token预算进行思考，却最终返回了空响应，完全没有给出任何答案。
AI21 jamba_reasoning: 在18题中答对17题。该模型在逻辑三段论问题上，在3次运行中有1次出现错误。更值得关注的是，在温度参数为0的情况下，输出本应是确定性的，但它却给出了不同答案，这表明其在相同条件下输出的不稳定性。

测试揭示的核心问题在于，无论是正确还是错误的答案，模型都表现出相同的置信度。例如，对于“猫会呼吸吗？”这个问题，phi4模型回答“Yes, all cats breathe.”，而nemotron-mini则回答“No”。两者都直截了当，没有“我猜测”或“可能”等任何不确定性表达。

这意味着，仅凭模型输出本身，用户无法判断答案的对错。模型没有能力标记其自身的不确定性，也似乎不知道自己错了。它以与正确答案相同的“确信”程度给出错误答案，这对依赖AI进行关键决策的应用构成了潜在风险。