Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
NEWS 约 1 分钟

内存才是数据工程的新瓶颈

30GB 数据塞不进单机内存时,先选对执行方式,再考虑加机器。

IMAGE — Towards Data Science

数据一翻倍,集群却不能跟着扩,ETL 最先撞上的往往不是算力,而是内存。Jiayan Yin 处理的案例有 620 万条社交媒体帖子,JSON 展平后超过 200 列,约 30GB;同一字段还可能混有数字、字符串和空值。Pandas 能用 object 容纳这类数据,但整列转换会生成大量临时对象,任务因此被系统终止。

作者改用分块处理——每次只处理 25 万行,完成后释放内存——并称这让峰值内存明显下降,转换最终完成,流水线也趋于稳定。这个案例真正值得记住的,不是某个固定分块大小,而是先判断工作负载:Pandas 分块能压低峰值内存,但跨批次排序、连接和聚合需要额外设计;Dask 这类分布式数据框能扩展容量,却会带来调度、通信和重分区成本;Polars 的列式执行与惰性执行,则可通过只读取必要字段、推迟并整体优化操作来减少内存流量。供稿截断于运行时间部分,未披露三者的实测对比,因此不能据此判定统一赢家。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 数据板块