深度专题 FEATURES — 2
Valdi:用价值扩散加速世界模型规划
Valdi 用单步扩散兼顾随机未来与在线规划,初步控制效果追平 MLP 基线。
FurnitureVLA:机器人开始装真家具
FurnitureVLA让双臂机器人挑战真实尺度家具装配,用进度预测撑起最长1550步任务。
速览 BRIEFS — 9
PAPER
单层训练也能追平全参 RL
只训练中间一层,作者称可拿回全参数 RL 的大部分收益,甚至偶有反超。
PAPER
GSRQ 把 KV Cache 压到 1 bit 以下
GSRQ 用增益—形状残差量化挑战亚比特 KV Cache,长上下文精度表现值得关注。
PAPER
ELDR 让 MoE 解码路由看懂专家位置
ELDR 根据专家位置分配解码请求,在负载均衡之外减少 MoE 通信开销。
PAPER
QuasiMoTTo 重排测试时扩展的采样方式
QuasiMoTTo 用更均匀的并行采样,减少测试时扩展的重复算力。
PAPER
ABot-M0.5 统一移动与操作
ABot-M0.5 把底盘移动、机械臂操作与环境预测放进统一模型,缓解通用机器人的能力割裂。
PAPER
BaseRT 挑战 Apple 芯片推理纪录
BaseRT 原生适配 Metal,作者称其刷新 Apple Silicon 本地 LLM 推理吞吐。
PAPER
异步 RLHF 有了陈旧度缩放律
量化旧 rollout 与学习率的耦合,为异步 RLHF 调参划出稳定边界
PAPER
结构化 4D 潜变量辅助机器人规划
把视频预测压进结构化 4D 潜空间,让机器人规划兼顾几何与时间。
PAPER
CausalMix 用因果推断配训练数据
把预训练数据配比改写成因果估计,降低小模型方案外推到大模型时的误判。