简介:随着科学计算复杂性提高,工作流成为实现科学计算自动化的重要模型.WaaS平台从IaaS供应商处租用虚拟机,为用户提供科学工作流计算服务.目前针对WaaS平台的工作流调度研究并未考虑虚拟机宕机导致任务运行失败以及虚拟机供应延迟的情况.针对此问题,提出一种面向WaaS平台的多工作流容错调度策略.首先,针对 WaaS平台不直接调度硬件资源而是在虚拟机和容器层面调度工作流的特点,考虑虚拟机宕机以及供应延迟对调度的影响,建立适合 WaaS 平台的工作流调度模型.其次,提出一种WaaS平台下多工作流容错调度策略,包括预处理、容错方法选择、任务分配和资源调整四个阶段.其中,设计一种截止时间划分算法来确定调度顺序,通过将任务复制和重新提交相结合的方式选择容错算法,考虑任务属性和虚拟机供应延迟来进行虚拟机选择与任务分配,设计资源调整算法为即将开始的任务提前部署资源,以避免虚拟机或容器的供应延迟.最后,通过在不同虚拟机宕机概率、工作负载和截止时间约束下的实验对比,证明了提出的 WaaS平台容错调度策略的有效性.展开