让模型同时生成许多候选答案,再从中筛选,是测试时扩展——不改参数,只在推理阶段追加计算——的常见思路。问题在于,默认的独立采样容易反复撞向相似解法,算力花了,覆盖面却没同步扩大。QuasiMoTTo 想改的正是候选答案的“排布方式”。
它把自回归生成重写为逆 CDF 采样,再用 Quasi-Monte Carlo(QMC,借助低差异序列更均匀地覆盖采样空间)生成底层随机数。这样,一批候选彼此相关,但每个样本单独看仍服从语言模型原本的分布,因此也能用于策略梯度训练。作者在论文摘要中称:四个推理基准上,QuasiMoTTo 用少 25%—47% 的样本达到独立同分布采样的 pass@k 准确率;用于 GRPO 时,则以少 50% 的训练步数达到相同性能。这些结果目前来自作者自述,但方向很直接:测试时扩展不只看“采多少次”,也要看这些尝试是否真正铺开。