文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹欢. 交通场景下基于深度强化学习的感知型路径分配算法[J].信息技术与网络安全,2022,41(6):43-49.
0 引言
目前我国交通环境日益复杂,现有交通体系的服务能力难以满足城市居民的出行期望,城市面临日益严峻的交通管理挑战。研究者们希望借助交通数字孪生技术,通过数据驱动、精准建模,实现交通的模拟、预测诊断和优化[1]。然而在交通仿真模拟层次,现有的路径分配模块不能反映出现实交通的多变状况。在人-车-路的核心体系中,天气气候、交通管制、突发事故等影响因子将时刻影响驾驶员的判断以及路网的状态[2]。
在当前的交通数字孪生系统中,现有的路径分配方法主要分为两类,第一类为用于实现静态全局路径最优的传统算法,如经典的蚁群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改进算法等,本质为基于图论中重要的最短路径问题所提出的各种方案,也即在一个加权有向图中,按一定要求寻找一条权重总和最短的路径[3]。如Xu[4]等基于二叉树结构,通过双向搜索方法加快搜索效率,作为A-Star改进算法;Lee[5]等基于遗传算法实现蚁群算法中的参数调节优化。在路网信息发生变化时,该类算法难以做出及时反馈。如果需要满足动态路径规划的需求,则需要施加额外的更新优化和重规划机制。第二类指的是通过机器学习、时空神经网络、强化学习等技术来实现路径分配。这一类更加强调数据的搜集、分析和处理,通过提取海量历史数据的价值信息,为解决路径规划问题提供了一个新的思路[6]。
本文的中心工作是研究了一种基于传统路径算法与深度强化学习的感知型路径分配算法,首先通过改进版Dijkstra算法为所有车辆分配初始路径,路网中的车辆在不断感知当前位置、行驶轨迹以及目标路网中各路段的车流等信息后,通过DDQN(Double DQN)将自动选择是否重新进行全局的路径规划,实现路径更新。与现有的经典路径规划方法相比,本文提出的规划方案填补了传统模型在路况变化下的泛化性、拓展性不足,优化了深度学习型方法的资源损耗,同时基于强化学习模型在长期收益方面的优越性,本文模型更加满足路径分配模型对当今城市路网交通出行的各种需求。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004534
作者信息:
曹 欢
(中国科学技术大学 信息科学技术学院,安徽 合肥230026)