QuasiMoTTo 重排测试时扩展的采样方式

让模型同时生成许多候选答案，再从中筛选，是测试时扩展——不改参数，只在推理阶段追加计算——的常见思路。问题在于，默认的独立采样容易反复撞向相似解法，算力花了，覆盖面却没同步扩大。QuasiMoTTo 想改的正是候选答案的“排布方式”。

它把自回归生成重写为逆 CDF 采样，再用 Quasi-Monte Carlo（QMC，借助低差异序列更均匀地覆盖采样空间）生成底层随机数。这样，一批候选彼此相关，但每个样本单独看仍服从语言模型原本的分布，因此也能用于策略梯度训练。作者在论文摘要中称：四个推理基准上，QuasiMoTTo 用少 25%—47% 的样本达到独立同分布采样的 pass@k 准确率；用于 GRPO 时，则以少 50% 的训练步数达到相同性能。这些结果目前来自作者自述，但方向很直接：测试时扩展不只看“采多少次”，也要看这些尝试是否真正铺开。