GSRQ 把 KV Cache 压到 1 bit 以下

上下文越长，KV Cache——推理时保存各层历史 token 的 key 和 value——占用的显存就越多，而且容量随长度线性增长。GSRQ 想把这部分存储压到平均每项不足 1 bit，同时尽量守住模型精度。

它瞄准了向量量化里的一个细节：标准 ℓ2 K-means 在高维空间中对质心取平均，可能让质心收缩，削弱方向对齐。作者提出 Gain-Shape K-means，优先改善方向保真度，再将其加权版本放入残差量化流程，逐级编码尚未解释的误差。

作者称，在 LLaMA-3-8B 上，GSRQ 在多个码率下优于强基线；1-bit 时，LongBench 各任务平均准确率从 VQLLM 的 11.34 提升到 33.54，增加 22.20 个百分点。不过现有摘要没有披露完整实验设置、各任务明细和亚比特码率下的具体精度，结论仍需结合全文判断。