内存才是数据工程的新瓶颈

数据一翻倍，集群却不能跟着扩，ETL 最先撞上的往往不是算力，而是内存。Jiayan Yin 处理的案例有 620 万条社交媒体帖子，JSON 展平后超过 200 列，约 30GB；同一字段还可能混有数字、字符串和空值。Pandas 能用 object 容纳这类数据，但整列转换会生成大量临时对象，任务因此被系统终止。

作者改用分块处理——每次只处理 25 万行，完成后释放内存——并称这让峰值内存明显下降，转换最终完成，流水线也趋于稳定。这个案例真正值得记住的，不是某个固定分块大小，而是先判断工作负载：Pandas 分块能压低峰值内存，但跨批次排序、连接和聚合需要额外设计；Dask 这类分布式数据框能扩展容量，却会带来调度、通信和重分区成本；Polars 的列式执行与惰性执行，则可通过只读取必要字段、推迟并整体优化操作来减少内存流量。供稿截断于运行时间部分，未披露三者的实测对比，因此不能据此判定统一赢家。