代码转图片，模型成本降六成

编程智能体越用越贵，一个原因是代码、JSON 和工具输出会持续挤进上下文。pxpipe 的办法很反常识：不再把这些内容全按文本发送，而是由本地代理渲染成紧凑 PNG，让多模态模型通过 OCR（光学字符识别）读回来。图像 token 主要取决于图片尺寸，密集文字因此可能比纯文本更省 token。

项目作者称，真实 Claude Code 流量中，图片平均每 token 可容纳约 3.1 个字符，文本约为 1 个；按当前 Fable 标价估算，端到端账单可降低约 59%–70%。小规模测试中，SWE-bench Lite 两组均为 10/10，图片方案将请求体积缩小 65%；SWE-bench Pro 则为 14/19 对 15/19，请求体积缩小 60%。这些结果均来自作者自述，样本也不大。

代价是有损读取。密集图片中的 12 位十六进制字符串，Fable 5 只读对 13/15，Opus 为 0/15，而且错误可能表现为无声编造。换句话说，它适合压缩冗长、容错的旧上下文，不适合哈希、ID、密钥等必须逐字准确的内容；不同模型和稀疏文本也未必省钱。