一种基于异策略强化学习的多匝道协调控制方法

公开

摘要

本发明公开了一种基于异策略强化学习的匝道协调控制方法，以迭代方式使用离线交通数据训练强化学习智能体，而不是与交通模拟器交互。在每次训练迭代中，收集历史交通流数据并将其输入学习算法以更新控制策略。在迭代初期，当历史交通流数据量较少时，使用宏观交通流模型METANET来生成合成交通流数据。这使强化学习能够探索到可能导致更好的交通性能的新动作。为了保证训练迭代的可行时间，快速道路被分为若干单点控制区域，每个单点控制区域对应于单点匝道控制系统，以保持低维度的状态和动作空间，从而可以充分探索控制动作。随着探索更多的控制动作和利用更多的训练数据，最终得到匝道协调控制的最优策略。

基本信息

专利标题：

一种基于异策略强化学习的多匝道协调控制方法

专利标题（英）：

暂无

公开（公告）号：

CN114299714A

申请号：

CN202111484299.9

公开（公告）日：

2022-04-08

申请日：

2021-12-07

授权号：

暂无

授权日：

暂无

发明人：

韩雨高津达李玲慧刘攀

申请人：

东南大学

申请人地址：

江苏省南京市麒麟科创园智识路26号启迪城立业园04幢

代理机构：

南京经纬专利商标代理有限公司

代理人：

刘莎

优先权：

CN202111484299.9

主分类号：

G08G1/01

IPC分类号：

G08G1/01 G06Q10/04 G06Q50/30 G06N20/00

IPC结构图谱

G部——物理

G08

信号装置

G08G

交通控制系统

G08G1/00

道路车辆的交通控制系统

G08G1/01

检测要统计或要控制的交通运动

法律状态

2022-04-08 ：

公开

注：本法律状态信息仅供参考，即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。

文件下载

暂无PDF文件可下载