理解大语言模型(LLM)的底层逻辑往往需要面对复杂的数学公式,但通过追踪单个 Token 的演进路径,我们可以建立一个更直观的心理模型。LLM 的核心机制并非像人类那样直接处理文本,而是一场关于数学向量的持续改写过程。
首先,输入文本会被拆解为 Token,并转换为所谓的“嵌入向量”(Embedding Vectors)。这些向量是高维空间中的数值点,代表了词项的初始语义。模型推断的本质,就是对这些向量进行一系列复杂的变换。
在模型的层级结构中,“注意力机制”(Attention)扮演着至关重要的角色。它决定了哪些先前的 Token 对当前上下文最为关键。通过计算注意力权重,模型能够动态地从历史信息中提取关联,并将其整合到当前的处理流程中。
最核心的理解是:模型并不是在“思考文字”,而是在不停地重写向量。每一层网络都在微调这些向量的数值,直到最后一个向量包含足够的信息,能够准确预测接下来可能出现的 Token。这种从离散文字到连续向量空间的转换,正是现代自然语言处理(NLP)魔法背后的真相。