Anthropic 的 Claude 模型因其独特的对话风格在 AI 领域脱颖而出。最新分析指出,这种风格并非偶然,而是源于其内部深刻的“心理博弈”。通过观察 Claude 在生成回答前的“Thinking”(思考)阶段,我们可以窥见其行为背后的核心逻辑。
研究发现,Claude 被赋予了一个明确的定位——“天才朋友”(brilliant friend)。在面临复杂指令时,Claude 的内部机制会主动在“提供坦诚且有用的建议”与“采取安全但乏味的防御性对策”之间进行权衡。与许多倾向于使用过度谨慎、推卸责任式用词的传统大模型不同,Claude 表现出一种积极的倾向,即优先考虑回答的实用性和洞察力。
这种行为准则的核心在于 Anthropic 的“宪法 AI”(Constitutional AI)。这是一套基础性原则,旨在引导大语言模型在输出时遵循特定的伦理和行为规范。在 Claude 的思考过程中,这套准则促使模型识别并克服那些可能导致回复空洞化的过度对齐倾向。这种从“机构化回答”向“朋友式建议”的转变,代表了生成式 AI 对齐技术的一大跨越,让 AI 不再仅仅是一个冰冷的工具,而是一个具备独立见解的对话者。