合合信息是一家专注于智能文字识别、图像处理、自然语言处理、知识图谱与大数据挖掘的科技公司,依托自主研发的 AI 与大数据技术,已在上交所科创板上市。公司主要 C 端产品包括扫描全能王、名片全能王和启信宝。
随着 AI 训练平台规模持续扩展,公司积累了千亿级文件和百 PB 级数据,覆盖 NLP、CV 等多种任务类型,存储需求愈发复杂。原有架构中,BeeGFS 作为高速并行存储提供 RDMA 访问,但容量有限;SeaweedFS 提供大容量对象存储,但性能存在瓶颈,且与在线服务混合部署,易出现资源抢占问题。在这种架构下,数据迁移频繁、访问路径割裂、资源利用率低下成为主要瓶颈。
为应对这些挑战,合合信息引入 JuiceFS 构建统一的存储访问架构,并结合 BeeGFS 提供分布式缓存能力。JuiceFS 目前稳定支撑数十亿级文件、十 PB 级数据存量与 PB 级日增数据,平均缓存命中率超过 90%,显著提升了 AI 训练与大数据任务的 I/O 性能。该架构整合了高速缓存与低成本对象存储的访问路径,打通多源数据流动,提升了整体系统的资源调度效率,并支持与线上业务的高效混合部署。
01 AI 平台与早期存储架构
AI 训练平台主要服务于各类算法模型的训练与推理,大数据平台则侧重于支撑海量数据的存储与计算分析。无论是 AI 模型的迭代,还是大数据挖掘任务,均对计算资源与存储性能提出了较高要求。为提升整体资源利用率,我们在架构上引入了计算层与存储层的离线混合部署策略,通过统一调度和资源复用,实现对有限计算与存储资源的高效利用。
通过对存储层和任务调度层的系统性改造,我们构建出一套支持大规模混合计算的统一基础设施。该架构能够灵活承载上层各类任务,包括 AI 训练与推理、大数据处理等不同类型的计算负载,底层则覆盖 CPU 与多类型 GPU 的异构计算资源。借助任务调度的灵活编排,实现不同任务类型在时间上的错峰运行,从而起到“削峰填谷”的作用,整体提升了资源利用率。