Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER H 12 约 1 分钟

BaseRT 挑战 Apple 芯片推理纪录

BaseRT 原生适配 Metal,作者称其刷新 Apple Silicon 本地 LLM 推理吞吐。

本地跑 LLM,模型能装进内存不等于跑得够快。BaseRT 想解决的正是这层损耗:它绕开通用框架,直接围绕 Metal——Apple 平台的底层 GPU API——和统一内存设计运行时。统一内存让 CPU、GPU 共享物理内存,但访问方式和带宽仍会卡住吞吐。

BaseRT 用芯片定制的内核融合、统一内存优化和自定义调度减少开销。内核融合就是把连续算子并进一次 GPU 执行,少做中间读写和调度。作者在 M3、M4 Pro 上测试 Qwen3、Llama 3.2 和 Gemma 4 的 Q4、Q8 量化版本,称解码吞吐最高比 llama.cpp 高 1.56 倍、比 MLX 高 1.35 倍;对混合专家模型,预填充阶段的差距更大。这里的吞吐指单位时间处理或生成的 token 数,不等同于单次请求延迟。

项目支持全部 Apple M 系列设备、八种量化格式(Q2 至 FP16)及多个模型家族,并已公开代码。不过“最高吞吐”及性能数字目前均来自作者报告,供稿未提供独立复测结果。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 学术板块