上下文越长,KV Cache——推理时保存各层历史 token 的 key 和 value——占用的显存就越多,而且容量随长度线性增长。GSRQ 想把这部分存储压到平均每项不足 1 bit,同时尽量守住模型精度。
它瞄准了向量量化里的一个细节:标准 ℓ2 K-means 在高维空间中对质心取平均,可能让质心收缩,削弱方向对齐。作者提出 Gain-Shape K-means,优先改善方向保真度,再将其加权版本放入残差量化流程,逐级编码尚未解释的误差。
作者称,在 LLaMA-3-8B 上,GSRQ 在多个码率下优于强基线;1-bit 时,LongBench 各任务平均准确率从 VQLLM 的 11.34 提升到 33.54,增加 22.20 个百分点。不过现有摘要没有披露完整实验设置、各任务明细和亚比特码率下的具体精度,结论仍需结合全文判断。