Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
NEWS HN 293 约 1 分钟

代码转图片,模型成本降六成

pxpipe 把代码上下文转成图片交给模型 OCR,自述账单可降约六成,但精确字符可能失真。

编程智能体越用越贵,一个原因是代码、JSON 和工具输出会持续挤进上下文。pxpipe 的办法很反常识:不再把这些内容全按文本发送,而是由本地代理渲染成紧凑 PNG,让多模态模型通过 OCR(光学字符识别)读回来。图像 token 主要取决于图片尺寸,密集文字因此可能比纯文本更省 token。

项目作者称,真实 Claude Code 流量中,图片平均每 token 可容纳约 3.1 个字符,文本约为 1 个;按当前 Fable 标价估算,端到端账单可降低约 59%–70%。小规模测试中,SWE-bench Lite 两组均为 10/10,图片方案将请求体积缩小 65%;SWE-bench Pro 则为 14/19 对 15/19,请求体积缩小 60%。这些结果均来自作者自述,样本也不大。

代价是有损读取。密集图片中的 12 位十六进制字符串,Fable 5 只读对 13/15,Opus 为 0/15,而且错误可能表现为无声编造。换句话说,它适合压缩冗长、容错的旧上下文,不适合哈希、ID、密钥等必须逐字准确的内容;不同模型和稀疏文本也未必省钱。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 科技板块