学习、预测与数据压缩在信息论中有着紧密的关联。一个能够准确预测序列中下一个符号的模型,与源编码器结合,便能将该序列压缩至接近其信息论极限。然而,在实际应用中,当令牌化的字符以固定读取速度到达,并被编码成可变长度码字,通过固定速率信道传输时,会形成一个队列。此时,每个令牌的延迟将取决于比特长度的均值、方差以及编码器的算法延迟。
近期一项研究深入探讨了在实时文本传输场景中,利用因果语言模型(LLM)作为“预测-编码”架构中的序列预测器时所产生的压缩-延迟权衡。该研究对比了多种编码方案,包括理想的香农编码、霍夫曼编码、算术编码、不同块大小的rANS编码以及gzip。分析重点区分了由编码器本身决定的“算法延迟”与随硬件改进而缩小的“计算延迟”。
研究发现,对于容量充裕的信道,霍夫曼编码是一个实用的选择,它具有零算法延迟和适度的压缩开销。而算术编码则能实现接近最优的压缩效果,但代价是会引入可解码延迟。这些发现通过在不同规模模型上的验证得到了证实:从GPT-2(1.24亿参数)到Llama 3.2(30亿参数),参数规模跨越了25倍。这种模型规模的提升带来了每字符比特数约38%的显著减少,从而有效地使信道容量过剩,进而改变了哪种编码器是最佳选择的判断。