Valdi：用价值扩散加速世界模型规划

视频式世界模型常遇到一个现实矛盾：未来越不确定，模型越需要表达多种可能；但控制系统又等不起复杂推演。Valdi 瞄准的正是这道难题——让世界模型保留随机未来，同时尽量适应 MPC 的在线规划节奏。以下结果均来自论文摘要这一单一信源，尚无独立复现。

快与多，为什么难兼得？

模型预测控制（MPC）会在每个时刻预测多条动作序列，只执行最优序列的第一步，然后重新规划。模型推演越慢，控制频率就越受限。

扩散模型适合描述随机动力学——同一状态和动作可能通向多种未来。但它通常需要迭代推理，这与低延迟规划天然冲突。潜空间规划能在压缩后的内部状态里预测和搜索，省去反复生成高维观测，却仍绕不开扩散步数带来的成本。

Valdi（Value Diffusion World Models）把面向 MPC 的端到端在线训练，与潜空间扩散动力学模型放进同一方案。论文在初步 CarRacing 实验中，将训练和推理都压到 single diffusion step，也就是只走一步扩散。

据作者报告，这一设置的控制效果与 deterministic MLP baseline 相当。这个结果值得看，不是因为它证明扩散模型已经更快或更强，而是它说明：至少在该实验里，单步扩散没有让控制表现明显掉出基线水平。

实验还显示，predictive multimodality——模型表达多种可能未来的能力——与 control performance 之间存在权衡。说白了，未来预测得更“多样”，不等于控制就更好。如何利用分布信息，而不是让它干扰动作选择，可能才是后续重点。

摘要未给出控制指标、误差范围、随机种子或统计显著性。
没有实际延迟、吞吐量或加速倍数，因此“加速”目前是研究目标，不是已量化结论。
权衡只在这套 CarRacing 设置中成立，不能直接泛化。代码已发布于 GitHub 仓库 Kit115/ValueDiffusionWorldModels。