《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 基于深度强化学习和社会力模型的移动机器人自主避障
基于深度强化学习和社会力模型的移动机器人自主避障
网络安全与数据治理 2023年3期
李恒,刘轻尘,马麒超
(中国科学技术大学信息科学技术学院,安徽合肥230026)
摘要: 深度强化学习在移动机器人自主避障领域已得到广泛应用,其基本原理是通过模拟环境中的不断试错,结合奖励机制提升机器人的避障性能。然而,针对不同任务场景,网络训练效率存在显著差异。同时,在人群密集的场景中,机器人的行为可能对人类造成干扰。为了应对训练效率低下和机器人行为不符合社会规范的问题,提出了一种将社会力模型融入深度强化学习的自主避障策略。该策略首先将人类未来的运动轨迹考虑进奖励函数,以确保机器人理解人类意图并避免闯入人类的舒适区。其次,在训练过程中引入先验的传统控制器模型,并设计了一种基于概率的切换开关,以随机切换控制器输出,提高机器人的探索效率。实验结果表明,所提出的方法能够增加机器人与人类之间的安全距离,同时实现平稳导航。
中图分类号:TP273
文献标识码:A
DOI:10.19358/j.issn.2097-1788.2023.03.011
引用格式:李恒,刘轻尘,马麒超.基于深度强化学习和社会力模型的移动机器人自主避障[J].网络安全与数据治理,2023,42(3):68-73,79.
Autonomous obstacle avoidance for mobile robots based on deep reinforcement learning and social force model
Li Heng,Liu Qinchen,Ma Qichao
(School of Information Science and Technology, University of Science and Technology of China, Hefei 230026, China)
Abstract: Deep reinforcement learning has been widely applied in the field of mobile robot autonomous obstacle avoidance Its basic principle is to simulate continuous trialanderror in the environment and improve the robot’s obstacle avoidance performance by combining reward mechanisms However, the training efficiency of the network varies significantly depending on the task scene, and in crowded scenes, the robot’s behavior may cause interference with humans To address the problems of low training efficiency and robots behaving inappropriately, this paper proposes a selfobstacle avoidance strategy that incorporates the social force model into deep reinforcement learning The strategy firstly considers the future trajectory of humans in the reward function to ensure that the robot understands human intentions and avoids entering the human comfort zone Secondly, during the training process, a priori traditional controller model is introduced and a probabilitybased switching method is designed to randomly switch controller outputs to improve the robot’s exploration efficiency The experimental results show that the proposed method can increase the safety distance between the robot and humans while achieving smooth navigation.
Key words : eep reinforcement learning; social force model; autonomous obstacle avoidance

0    引言

自主避障是移动机器人应用中的基础技术,其可以确保机器人在机场和购物中心等人流拥挤场景中实现安全导航。人类有观察他人以调整自身行为的能力,因此可以轻松穿过人群。然而,在高度动态和拥挤的场景中进行自主避障仍然是移动机器人的一项艰巨任务。传统导航框架中的避碰模块通常将动态障碍物视为静态,例如动态窗口方法(DWA),或者仅根据某些交互规则关注下一步行动,例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)。由于这些方法仅通过被动反应防止碰撞,并且通常使用人为定义的函数以保证安全,因此会导致机器人的运动不自然、短视和不安全。相比之下,强化学习导航技术可以通过不断地探索和学习增强机器人的感知能力,从而实现更有力的决策。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005258




作者信息:

李恒,刘轻尘,马麒超

(中国科学技术大学信息科学技术学院,安徽合肥230026)


微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。