科学工作流由相互依赖的计算任务构成,已成为现代科学计算的基石。随着计算资源的快速提升、网络与I/O带宽发展相对滞后,以及在“超算互联网”与“AI+大数据”等技术浪潮推动下数据密集型工作流的兴起,数据交互环节已成为制约部分科学工作流性能的新瓶颈。
为优化科学工作流计算任务与数据交互之间的协同,提高工作流的整体性能,近日,我中心高性能计算部科研团队提出了面向HPC环境、以数据为中心的科学工作流执行框架HPCFlow。HPCFlow采用数据驱动式异步执行模式,节省集中式协调开销,实现计算与数据交互的异步流水线式执行;引入上下文感知的数据传输机制,提升不同场景下的数据传输效率;建立输入数据同步机制,保障资源动态扩缩时跨节点并行任务的输入数据完整性,增强系统在真实HPC集群中的适用性与鲁棒性。生产级HPC环境的实证评估结果表明,HPCFlow能够有效节省集中式协调开销,实现计算与数据传输高效的异步流水线,在数据密集型场景下表现出显著性能优势。
在大规模视频处理工作流的实验中,HPCFlow下实现了明显的流水线overlap,节省了38.8%的延迟,证明相较于传统的工作流执行方式,HPCFlow能通过计算任务与数据交互之间的协同优化,显著降低科学工作流的总完成时间与端到端延迟。

面向HPC环境、以数据为中心的科学工作流执行框架HPCFlow
该研究成果已被CCF Transactions on High Performance Computing (CCF THPC) (CCF C)录用并发表。论文第一作者为我中心高性能计算部硕士研究生陈韬,通讯作者为王小宁副研究员。本研究得到了“超算互联网资源共享关键技术研发及应用”国家重点研发项目(2023YFB3002204)的支持。
相关成果:
Chen T, Wang X, Li G, et al. Revisiting workflow execution in HPC: a data-flow approach[J]. CCF Transactions on High Performance Computing, 2025: 1-14.(CCF C,第一作者)
责任编辑:郎杨琴