首页 > 期刊导航 > 哲学铁道科学与工程学报 2025年12期 > 2025年1期 > 基于深度强化学习的高速列车驾驶策略优化
基于深度强化学习的高速列车驾驶策略优化
简介:深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果.现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,由于固定奖励函数难以适应不同调度运行时刻下的能效差异,智能体将受到不准确信号的干扰,通常采用手动方式调整.鉴于此,本研究在极大值原理基础上,综合考虑影响列车能效的诸多因素,提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL).该算法从结构上分为分层优化层和强化学习层.分层优化层利用先验知识降低智能体的探索复杂度,并根据能效场景重塑奖励函数,以实现对能效和时间等多个目标探索的有效平衡;而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法,将其用于连续的动作空间,以提高列车操控的精确度.通过实验验证了HODRL算法在提升能效和准时性等方面的有效性,该算法平均减少79.68%的无效状态空间,并让智能体获得正确的奖励信号,预计节能和智能体实际节能相比均值误差为1.99 kWh,方差为0.91 kWh.所提算法仅需要TD3算法15.26%的训练时间即可收敛,并与其他基线算法相比较,在时间误差为±0.1%并保证乘客舒适度时,相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%,5.70%,1.69%,3.27%.研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考.展开
学者:徐凯张皓桐张淼张洋吴仕勋
关键词:高速列车分层次优化深度强化学习状态空间约束奖励重塑
分类号:U292(铁路运输管理工程)
资助基金:重庆市自然科学基金资助项目;CSTB2024NSCQ-MSX0275;重庆市自然科学基金资助项目;重庆交通大学研究生科研创新计划项目
论文发表日期:
在线出版日期:2025-02-28 (网站首发日期)
页数:13(25-37)