Research on Robot Navigation Method Integrating Safe Convex Space and Deep Reinforcement Learning

DONG Mingze; WEN Zhuanglei; CHEN Xiai; YANG Jiongkun; ZENG Tao

doi:10.12382/bgxb.2023.0982

PDF(4123 KB)

Acta Armamentarii ›› 2024, Vol. 45 ›› Issue (12) : 4372-4382. DOI: 10.12382/bgxb.2023.0982

Research on Robot Navigation Method Integrating Safe Convex Space and Deep Reinforcement Learning

Author information +

History +

Abstract

A robot navigation method based on deep reinforcement learning (DRL) is proposed for navigating the a robot in the scenario where the global map is unknown and there are dynamic and static obstacles in the environment. Compared to other DRL-based navigation methods applied in complex dynamic environment, the improvements in the designs of action space, state space, and reward function are introduced into the proposed method. Additionally, the proposed method separates the control process from neural network, thus facilitating the simulation research to be effectively implemented in practice. Specifically, the action space is defined by intersecting the safe convex space, calculated from 2D Lidar data, with the kinematic limits of robot. This intersection narrows down the feasible trajectory search space while meeting both short-term dynamic obstacle avoidance and long-term global navigation needs. Reference points are sampled from this action space to form a reference trajectory that the robot follows using a model predictive control (MPC) algorithm. The method also incorporates additional elements such as safe convex space and reference points in the design of state space and reward function. Ablation studies demonstrate the superior navigation success rate, reduced time consumption, and robust generalization capabilities of the proposed method in various static and dynamic environments.

Key words

mobile robot navigation / deep reinforcement learning / safe convex space / model predictive control / dynamic unknown environment

QR code of this article

Cite this article

EndNote

Ris (Procite)

Bibtex

Download Citations

DONG Mingze , WEN Zhuanglei , CHEN Xiai , YANG Jiongkun , ZENG Tao. Research on Robot Navigation Method Integrating Safe Convex Space and Deep Reinforcement Learning. Acta Armamentarii. 2024, 45(12): 4372-4382 https://doi.org/10.12382/bgxb.2023.0982

0 引言

移动机器人自主导航是机器人研究的一个重要领域,其在工业生产、日常生活、仓储物流、服务业等各个领域都有广泛的应用场景。

传统的移动机器人导航方法首先通过同步定位与建图(Simultaneous Localization and Mapping, SLAM)技术^[1]对其所处环境建图,然后根据建立的地图使用Dijkstra 等确定性方法或者A^* 等启发式算法规划全局路径,再使用时间弹性带(Timed Elastic Band, TEB)或动态窗口法(Dynamic Window Approach, DWA)等算法根据局部环境信息规划局部路径,最后使用纯追踪方法或模型预测控制(Model Predictive Control, MPC)等方法控制移动机器人跟踪轨迹朝目标点运动,并在导航过程中通过惯性测量单元、激光雷达等多种传感器确定自身状态和周边环境信息^[2]。传统导航方法多为定制型算法,其在静态已知环境下表现良好,但在复杂未知环境下,传统的基于地图的导航框架面临着诸多挑战。首先,机器人需要实时地感知和避开自主移动的障碍物,如行人、车辆等,这对机器人的运动规划和控制提出了较高的要求。其次,地图的建立和更新、基于多传感器数据的融合定位等过程都需要消耗大量的计算资源,且在这些过程中不可避免地产生误差,会导致地图质量和定位精度下降,同时对传感器数据的质量和准确性有较高的要求^[3-4]。

深度强化学习(Deep Reinforcement Learning,DRL)是一种结合了深度学习和强化学习的方法,它可以训练出一个具有学习和适应新环境能力的策略网络,使得移动机器人能够在无地图的动态环境下实现高效导航^[5⇓-7]。目前基于DRL的机器人导航主要方法可分为端到端方式和分层方式这两大类。

端到端的方法一般将机器人的感知信息(如图像、激光雷达等)作为神经网络的输入,直接输出机器人的运动控制指令(如速度、转向角等)^[8]。这样可以显著减少工程的复杂度,不需要设计特别复杂的过程,只需要根据数据和需求训练一个合适的模型。Pfeiffer等^[9]提出了采用卷积神经网络(Convolutional Neural Network, CNN)实现端到端运动规划的数据驱动的方法,其记录了专家指导下无碰撞的传感器数据、目标位置和专家转向命令,并将其作为CNN的优化目标,通过各个环境的训练数据训练后平均拟合专家规划方法。Tai等^[10]使用基于确定性策略梯度的DRL模型,以稀疏的10维测距数据和相对于移动机器人坐标系的目标位置作为模型输入,将连续转向命令作为输出,训练出主要部署于静态、狭窄的无地图环境下的移动机器人导航策略。Xie 等^[11]针对现有 DRL 端到端模型需要大量试错且训练曲线振荡难以收敛的问题,引入PID独立控制器用作一种可切换的策略,以加速DRL在本地规划和导航问题上的训练,而不是让机器人随机探索。然而,这种方法也存在一些问题和局限性。首先,由于真实环境的复杂性和多样性,很难收集到足够多样化和高质量的数据来训练神经网络,而且训练过程的可解释性和可调试性差。其次,由于仿真环境与真实环境之间存在差异,直接将在仿真环境下训练得到的神经网络部署在真实机器人上,往往会导致运动过程不稳定^[12]。

分层DRL方式的基本思想是将一个复杂的任务分解为多个子任务,每个子任务对应一个不同层次的策略,从而实现对状态和动作空间的抽象和分解。黄昱洲等^[13]提出一种基于DRL的双层路径规划法。首先,全局规划通过柔性动作-评价(Soft Actor-Critic, SAC)算法和已知数据探索路径,并输出中间探索点。然后,局部规划基于深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法和中间探索点得到控制指令,实现无人车轨迹跟踪,同时利用PID控制器和Q-table加速训练。

除了上下层都用DRL表示的典型分层学习外,近年来在机器人导航领域还出现了一种混合解决方案^[14],其结合了DRL和在现实世界中也能取得良好效果的经典规划算法。Brito等^[14]利用DRL训练了一个子目标策略网络,根据环境信息推荐给本地运动规划器一个子目标位置。然后,利用MPC生成满足机器人运动动力学约束和避障要求的局部最优运动规划,以接近推荐的子目标位置。Nikdel等^[15]将移动机器人和行人的相对位姿序列作为观测量,策略网络输出移动机器人短期的目标位置,通过TEB直接规划以此点为终点的轨迹。

为了提高算法在真实环境下的迁移性能,获得平滑、可靠的控制指令,本文方法采用将控制环节与神经网络分离的混合解决方案,神经网络的输出为中间层的机器人运动参考位置信息,然后根据机器人的运动学模型使用MPC对参考位置进行跟踪和优化,降低了对策略网络输出的依赖性。相较于上述应用于复杂动态环境的DRL机器人导航方法,本文方法在动作空间设计、状态空间设计、奖励函数设计和训练策略上进行了改进。

有别于上述DRL导航方案^{[8⇓⇓⇓⇓⇓⇓-15]}将原始激光雷达点云数据直接输入神经网络的处理,本文方法先把点云数据转换为安全凸空间这种规则化的环境几何特征,由此提供了明确的环境约束信息,缩小了动作的采样范围,同时保证最终在凸空间中生成轨迹的运动学可行性和安全性。

为同时满足局部动态避障和全局导航的需求,本文方法结合安全凸空间改进了动作空间设计,根据安全凸空间和机器人运动学约束,设计出包含短期和长期参考位置点的动作空间。

为使得智能体可以更好地感知环境与自身,相较于上述其他DRL研究,本文方法在状态空间设计上,不仅使用安全凸空间来表示外部环境信息,降低了状态表达的复杂度和智能体学习的难度,还融合了当前帧和历史帧状态,以帮助智能体学习环境和自身运动的时序特征。

为使奖励函数能够同时体现导航过程的不同目标,本方法设计了由8项奖励或惩罚项组成的多目标复合奖励函数,主线奖励引导智能体完成导航任务,支线奖励提供持续的训练反馈信号。为使机器人能学会在复杂动态场景下的导航能力,本文方法构建了一种分阶段的课程学习训练策略。将训练过程分为7个阶段,逐渐增加难度以引导智能体进行更有效地探索和学习。

1 基于安全凸空间的动作空间设计

1.1 安全凸空间

安全凸空间是机器人在复杂环境中用于无碰撞运动规划的可达、无障碍且具有凸性质的空间区域。将动作空间内动作生成的轨迹限制在安全凸空间内部,可以避免与障碍物发生碰撞。由于研究场景为全局地图未知的环境,无法直接利用整个地图空间构建凸集约束。因此,本文方法通过实时的激光雷达数据构建机器人局部环境的凸约束,进而求解导航问题并生成满足约束的轨迹。在机器人移动过程中,通过新获得的雷达数据不断更新凸空间,重新规划轨迹,使机器人能够跟踪最新的参考轨迹,最终达到目标位置,如图1所示。其中求解安全凸空间的算法采用了 Zhong等^[16]提出的在任意形状障碍物中高效生成大型且可靠可通行凸空间的方法。

Fig.1 Iterative solution procedure

图1 迭代求解过程

Full size|PPT slide

1.2 动作与动作空间设计

针对机器人在复杂环境中的导航问题,本文方法将机器人的动作输出设计为两个参考目标位置点,分别表示机器人在不同运行周期后的期望位置。

在动作空间设计上,首先限定参考点的采样范围在1.1节所定义的安全凸空间内,此限定可以有效预防潜在的碰撞风险。然后以机器人当前位置为中心O,结合其最大运动范围确定一个圆形区域。该圆形区域与安全凸空间的交集部分,被定义为机器人的最终动作空间。图2展示了动作空间的构建过程。采用此方法构建动作空间不仅确保了动作采样的有效性和合理性,同时也有效缩减了动作采样的空间范围。

Fig.2 Short-term and long-term reachable intersection spaces

图2 短期可达交集空间与长期可达交集空间

Full size|PPT slide

策略网络的输出通过sigmoid激活函数处理后,可得

$ \hat{a}_{t}=\left\{\left(\alpha_{t}^{\mathrm{s}}, \beta_{t}^{\mathrm{s}}\right),\left(\alpha_{t}^{1}, \beta_{t}^{\mathrm{l}}\right) \mid \alpha_{t}, \beta_{t} \in(0,1)\right\}$

(1)

式中:α_t和β_t分别为角度和距离缩放系数,上标s和l分别表示短期和长期可达交集区域。

为了将网络输出映射为具体的短期与长期参考点的位置描述,需要将这两组二维数据转换至极坐标系中。以机器人当前位置O作为极坐标系的原点,并将第一束激光的方向设为极坐标的极轴方向,可以得到短期参考位置点的极角

θ s t

,其计算方式如式(2)所示:

θ s t

α s t

·2π

(2)

从O点发出的、角度为

θ s t

的射线会与短期可达交集空间在

P s t

处相交。为获得的

P s t

坐标,需要考虑凸空间交集空间多边形顶点在极坐标系中的极角,并确定

θ s t

所在的具体区间。经过对交集区域边界的确认后,可以用交点的表达式计算得到

P s t

的具体坐标。将原点O到

P s t

的距离

d s θ, t

与缩小系数相乘,得到短期参考位置的距离

d s t

。上述计算t时刻短期参考位置坐标

Q s t

过程的公式如式(3)所示,计算过程如图3所示:

d s t = β s t · d s θ, t Q s t = (d s t · c o s θ s t, d s t · s i n θ s t)

(3)

Fig.3 Short-term reference position calculation

图3 短期参考位置计算

Full size|PPT slide

计算长期参考位置点,以

Q s t

为原点,沿用原极坐标基准方向,基于短期参考位置点的极角

θ s t

,引入角度增量得到

θ l t

。将以

θ l t

确定的射线与交集边界交汇的交点定义为

P l t

,接下来的步骤与计算短期参考位置点相近。具体的计算过程(见图4)公式如式(4)所示:

θ l t

θ s t

α l t

·2π

d l t

β l t

d l θ, t Q l t

Q s t

d l t

·cos

θ l t

d l t

·sin

θ l t

)

(4)

通过上述流程能够将动作策略网络的输出转化为后续MPC计算所需的长期和短期的参考位置点。

Fig.4 Long-term reference position calculation

图4 长短期参考位置计算

Full size|PPT slide

2 MPC设计

设t_control为控制周期,若MPC对未来N个控制周期的状态做预测,则MPC总预测时长T可由T=N·t_control计算得出。A为系统矩阵,B为输入矩阵。系统状态为x=[p_x,p_y,v_x,v_y,a_x,a_y]^T分别为轨迹状态在激光雷达坐标系下的二维平面位置、速度、加速度,控制量u=[j_x,j_y]^T为加加速度,x_init=[

p x 0

p y 0

v x 0

v y 0

a x 0

a y 0

]^T表示本控制周期的移动机器人初始0时刻状态。

然后通过1.2节提出的方法,在安全凸空间内获得

Q s i

和

Q l t

两个参考位置点坐标,并将它们作为MPC预测的位置Q_i=(

p x i

p y i

),i={1,…,N}的参考值。在代价函数中,考虑了这两个位置点与首个以及最后一个MPC控制周期预测点Q₁以及Q_N的偏差,且为保证移动机器人的运动轨迹的平滑性,在代价函数中还加入了在k时刻控制量u_k的二范数项。最后,将MPC问题转化为如式(5)所示的二次规划问题,其中w_track和w_smooth分别为代价函数中跟踪误差项和平滑项的权重:

m i n u 0 ∶ N - 1 {w t r a c k (‖ Q 1 - Q s t ‖ 2 + ‖ Q N - Q l t ‖ 2) + w s m o o t h ∑ k = 0 N - 1 u k ‖ 2} s . t . x 0 = x i n i t, x i = A x i - 1 + B u i - 1, ∀ i ∈ {1, …, N}, ∀ j = {1, …, n - 1}

(5)

3 基于DRL的移动机器人导航方法

3.1 近端策略优化

近端策略优化算法(Proximal Policy Optimization, PPO)是基于策略梯度方法的一种先进的强化学习策略,其核心是通过迭代地交互环境并优化一定目标函数来探索最优策略。本文方法为了克服传统强化学习算法中存在的探索不足的问题,引入了策略熵组件λH(

π θ n e w

(·|s_t)),该组件通过激励策略在多样状态下探索多种行动,从而提高整体的学习效率和策略多样性 ^[17⇓-19]。

3.2 状态空间设计

为使智能体有效感知状态信息,本文方法扩展了常规状态空间设计,引入了以下状态参数:与导航目标点的欧式距离d_t、运动速率v_t、速度方向与导航目标点连线的夹角dθ_t、上一帧的短期参考位置

Q s t - 1

、上一帧的长期参考位置

Q l t - 1

以及MPC计算的位置点

Q 1 *

和

Q N *

。C_t被定义为凸空间rnum_v个顶点的极坐标序列,scan_t为激光雷达点云数据。为了使这些不同规模或单位的数据具有相似的尺度,在输入到网络前需要对这些特征进行归一化处理,最终构成了观测值o_t,如式(6)和图5所示:

o_t=(C_t,d_t,v_t,dθ_t,

Q s t - 1

Q l t - 1

Q 1 *

Q N *

)

(6)

Fig.5 Schematic diagram of state-space observations

图5 状态空间观测量示意图

Full size|PPT slide

3.3 奖励函数设计

在强化学习中,奖励函数决定了智能体的目的,智能体的策略都是基于对未来奖励的预期,因此奖励函数是向智能体传达任务或需求的主要机制。

当机器人与目标点的欧式距离d_t小于d_th时,可以认为机器人成功完成导航任务,给予奖励r_success。

r s t

计算公式如式(7)所示:

r s t

r s u c c e s s, d t < d t h 0, 其 他

(7)

为缓解稀疏回报问题,本文方法采用了基于势能的塑形回报策略。首先,使用混合A^*算法^[20]来计算机器人与目标点的全局路径。该路径并不直接用于智能体的实际导航,仅作为奖励计算的参考。然后根据这条全局路径建立Frenet坐标系^[21],如图6所示。在此坐标系中,计算移动机器人的纵向位移ζ_t和横向偏差l_t。其中,纵向位移的变化量ζ_t-ζ_t_-1可以被视为智能体在导航任务中的进度增量,横向偏差l_t则描述了智能体与参考路径的距离差异,可以作为计算奖励或惩罚的参考,以促使其沿着参考路径运动。

Fig.6 Schematic diagram of potential energy shaping reward based on global path

图6 基于全局路径的势能塑形回报示意图

Full size|PPT slide

r a t

计算公式如式(8)所示:

r a t = w a p p r o a c h ζ t, t = = 1 w a p p r o a c h (ζ t - ζ t - 1), 其 他 r l t = w c l o s e l t 2

(8)

式中:w_approach为正权重;w_close为负权重。这样的设置确保了智能体在探索过程中,在完成主线任务的同时尽量减少对预设路径的偏离。

为防止机器人在无地图动态环境中与障碍物发生碰撞,本文方法还根据激光雷达数据设计了基于距离的碰撞惩罚

r o t

。设scan为激光雷达点云序列,当移动机器人与障碍物发生接触时,给予最大的碰撞惩罚r_collision。当min(scan)≤2时,表示机器人与障碍物过于接近,给予一个随距离指数衰减的惩罚,

r o t

计算公式如式(9)所示:

r o t

r c o l l i s i o n, m i n (s c a n) ≤ 0 r o b s e - w o b s m i n (s c a n), m i n (s c a n) ≤ 2 0, 其 他

(9)

式中:w_obs为正的衰减因子,用于调节惩罚指数衰减的速率; r_obs为负的惩罚权重。

为弥补当障碍物稠密时全局路径的势能回报很难维持其准确性的问题,新增了基于移动机器人与终点的欧氏距离进度增量的奖励项,如式(10)所示:

r t a 2

0, t = = 1 w a p p r o a c h 2 (d t - d t - 1), 其 他

(10)

为了保证移动机器人的导航过程平稳快速,设计了基于长短期参考位置点变化的惩罚项。该惩罚项根据前后两帧的短期和长期的参考位置点之间的欧氏距离,给予智能体不同程度的惩罚且随着参考位置点变化量的增加而增加,通过两个负系数

w s c h a n g e

和

w l c h a n g e

控制惩罚强度,如式(11)所示:

r c t

0, t = = 1 w s c h a n g e ‖ Q s t - Q s t - 1 ‖ 2 + w l c h a n g e ‖ Q l t - Q l t - 1 ‖ 2, 其 他

(11)

长短期参考位置点的采样空间为安全凸空间与机器人运动学极限推导可达位置范围的交集,但该采样空间有时并不能准确反映机器人实际运动学可达性。如果直接使用这些不准确的参考位置点生成后续轨迹, 有可能导致最终生成的轨迹在执行过程中出现不可达的情况。而MPC会根据机器人的运动学模型以及速度和加速度等状态限制条件,对包含参考位置点的轨迹进行优化计算,并获得运动学上可行的位置序列。因此为了鼓励智能体学习选择运动学上可行的参考位置点,本文方法引入了一个基于MPC计算的惩罚项,用来衡量实际可达位置和长短期参考位置点之间的误差,公式如式(12)所示:

r f t

w s f e a s i b l e

‖

Q s t

Q 1 *

‖²+

w l f e a s i b l e

‖

Q l t

Q N *

‖²

(12)

式中:

w s f e a s i b l e

和

w l f e a s i b l e

为负的惩罚权重。

最后,还添加了持续的固定惩罚项

r e t

,通过每步都给机器人一个小的负奖励,机器人会被激励在最短的时间内到达终点,也可以防止机器人通过绕远路的策略来获得额外的奖励^[22]。

综上,最终的奖励函数r_t由上述8项组成:

r_t=

r e t

r s t

r a t

r t a 2

r l t

r o t

r c t

r f t

(13)

3.4 网络结构设计

虽然原始点云数据包含了更多信息,但很多远距离的障碍对局部导航决策参考价值不大,因而本文方法在构建状态空间的过程中,将对点云数据进行1.1节的算法处理获得的安全凸空间作为状态输入,降低了状态空间的复杂度和网络训练难度,因此采用4层全连接网络就足以拟合策略函数和价值函数。

文献[23]表明,虽然在传统的DRL算法中,通常使用共享的网络来学习策略和价值函数,但共享可能会导致过拟合,因为精确估计价值函数需要比学习最优策略更多的信息。该研究结果表明,通过分离策略和价值函数,可以缓解因共享而导致的过拟合,且独立的网络可以更有效地学习泛化到新环境的策略和价值函数,提高算法的泛化能力。因此在本文的网络设计中,策略网络和价值网络采用了独立的网络结构,并不共享参数。

价值网络的参数ϕ对应图7所示的4层全连接网络结构中的全部参数。

Fig.7 Design of state value network

图7 状态价值网络设计

Full size|PPT slide

策略函数是指在给定状态下,输出智能体应该采取的动作的函数,策略网络结构如图8所示,该网络可以输出确定性策略和随机性策略。确定性策略是指在每个状态下,网络直接输出一个实数向量作为期望动作,即π_θ(s_t)=a_t;随机策略则对于某个动作a_t, 网络输出一个高斯分布N(μ_t,

σ t 2

),也就是每个动作只需要确定两个参数μ_t和σ_t,输出的动作的值就在这个高斯分布上随机采样,其中σ_t由网络输出的与动作维度数相同的标准差对数lnσ确定,并可以通过lnσ来平衡探索和利用。在训练阶段采用随机性策略采集轨迹数据并更新策略网络,并且在训练过程中逐渐减小随机策略的方差,从而逐步增加利用的程度,降低探索的程度,而在验证和部署阶段使用确定性策略来执行最优动作。

Fig.8 Design of strategy network

图8 策略网络设计

Full size|PPT slide

3.5 模型训练

在训练策略上,本文方法经过了从简单到复杂的多阶段训练流程。这种分阶段训练的设计基于强化学习领域的课程学习方法,旨在通过优化智能体获取经验的顺序来提高在智能体在最终任务上的性能和学习效率。首先,在一个无障碍环境中培养智能体学习基本的导航运动,随后逐步增加静态和动态障碍物的数量和复杂度。这种仿照人类和动物学习中的课程设置,通过逐步增加任务难度来塑造学习过程,这种方法已被证明对于学习成功至关重要^[24]。

表1是分阶段训练的环境中静动态障碍物参数设置表格,其中静态障碍物是随机生成的多边形,顶点数为3或4,多边形最大面积不超过2m²,动态障碍物的形状为圆形。

Table 1 Staged training environment parameter settings

表1 分阶段训练环境设计表

阶段	环境尺寸/m	静态障碍物个数	动态障碍物个数	动态障碍物半径/m	动态障碍物速度/(m·s^-1)
1	20×30	0	0
2	20×30	10	0
3	20×30	10	5	0.2~0.3	0.3
4	20×30	10	10	0.2~0.3	0.3
5	10×10	0	10	0.1~0.4	0.3~0.6
6	10×10	0	20	0.1~0.4	0.3~0.6
7	10×10	0	30	0.1~0.4	0.3~0.6

4 仿真实验与结果分析

4.1 实验设置

本文在仿真实验阶段使用的是Arena-Bench,是德国柏林工业大学机器人实验室开发的一款开源的机器人仿真实验平台。Arena-Bench中的2维仿真基于Flatland2D仿真平台开发且支持多种场景模式,包括静态场景、随机动态场景、固定验证场景和实际场景。本文采用了基于场景模式和随机数生成器的方法来生成Arena-Bench中的高动态环境。场景模式是指一组描述高动态环境特征的配置文件信息,使用这种方法为2~7阶段场景各生成1000个固定验证场景。

为了进一步分析本文提出的DRL导航方法在动作空间、状态空间和奖励函数设计上的优势,本文在实验部分进行了消融实验,将本文提出的方法与4种不同的动作空间和状态空间设计构成的DRL导航方法进行比较,并在2~4阶段的场景中运行:

设计1 采用从原始输入到最终输出直接映射的端到端的设计方法,把点云数据直接作为状态量,状态观测量由式(14)定义:

o_t=(scan_t,d_t,v_t,dθ_t)

(14)

动作空间为连续的二维速度(v_x,v_y),表示移动机器人的横纵向速度。具体定义如式(15)所示:

t = t a n h (a t) t = {(α t, β t) | α t, β t ∈ (- 1,1)} v x = v m i n + (v m a x - v m i n) · α t v y = v m i n + (v m a x - v m i n) · β t

(15)

设计2 将安全凸空间作为外部环境信息,状态观测量由式(16)定义:

o_t=(C_t,d_t,v_t,dθ_t)

(16)

式中:C_t表示安全凸空间。

动作空间与设计1相同,为连续的二维速度(v_x,v_y)。

设计3 本设计将原设计中的动作空间简化为长期参考位置

Q l t

,表示机器人在一定控制周期后期望到达的位置。同时也简化去除了MPC计算及状态观测中

Q s t

的相关项。状态观测量由式(17)定义:

o_t=(C_t,d_t,v_t,dθ_t,

Q t - 1 l

Q N *

)

(17)

设计4 将原设计状态观测量中的凸空间C_t替换为原始点云数据,状态观测量由式(18)定义:

o_t=(scan_t,d_t,v_t,dθ_t,

Q s t - 1

Q l t - 1

Q 1 *

Q N *

)

(18)

动作空间不变,

Q l t

和

Q s t

的选取范围改为预处理后的点云scan_t与短期和长期可达范围的交集。

除此之外,因为本文方法采用了复合奖励函数,有到达目标奖励项r_success、碰撞惩罚项

r o t

、基于欧氏距离的势能塑型回报项

r t a 2

、单步固定惩罚项

r e t

等常规的奖励项^[25],也有参考位置点变化惩罚项

r c t

、MPC计算点误差惩罚项

r f t

等根据本文方法在网络输入输出方面改进而特殊设计的惩罚项。因此为了分析本文方法采用的奖励函数,尤其是

r c t

和

r f t

设计的合理性,所以也在奖励函数上设计了消融实验,设计了两种奖励函数r_t₁和r_t₂,并在5~7阶段各自1000个场景中运行测试:

奖励函数r_t₁就是使用全部的奖励项和惩罚项,如式(19)所示:

r_t₁=

r e t

r s t

r a t

r t a 2

r l t

r o t

r c t

r f t

(19)

奖励函数r_t₂就是在r_t₁的基础上,去除了本文特殊设计的惩罚项

r c t

和

r f t

,如式(20)所示:

r_t₂=

r e t

r s t

r a t

r t a 2

r l t

r o t

(20)

4.2 实验结果与分析

为了评估本文方法和设计1~设计4的导航性能,在训练阶段2~阶段4的每个阶段训练结束后,将本文方法和设计1~设计4训练好的智能体放置于1000个不同的验证场景中进行导航测试。通过对测试结果进行统计分析,得到不同设计在不同训练阶段的导航性能指标。

经过阶段2场景训练后统计得到的本文方法和设计1~设计4各项性能指标对比如表2所示。图9展示了其中随机抽取的一个验证场景以及机器人在该场景下的导航过程。

Table 2 Stage 2 scenario navigation performance metrics statistics

表2 阶段2场景导航性能指标统计表

方法		成功率/%		导航时间/s				导航路程/m				速度/(m·s^-1)				加速度/(m·s^-2)				加加速度/(m·s^-3)
方法		成功率/%		均值		标准差		均值		标准差		均值		标准差		均值		标准差		均值		标准差
设计1	76.0		4.0		2.2		11.3		6.3		2.9		0.3		0		1.0		-0.6		11.8
设计2	76.0		4.0		2.2		11.3		6.3		2.8		0.2		0		1.5		-0.1		22.5
设计3	90.3		9.0		5.2		15.2		8.3		2.8		0.2		0.3		1.9		-0.1		7.0
设计4	83.0		5.0		2.6		11.7		6.3		2.2		0.4		0.5		1.3		-0.2		4.8
本文方法	89.2		5.0		2.6		12.2		6.6		2.2		0.4		0.3		1.4		-0.5		4.0

Fig.9 Demonstration of the navigation results of different methods in Stage 2 scenario

图9 阶段2场景下不同方法导航结果展示

Full size|PPT slide

经过阶段3场景训练后统计得到的本文方法和设计1~设计4各项性能指标对比如表3所示。图10为选取的一个验证场景以及机器人在该场景下的导航过程。

Table 3 Stage 3 scenario navigation performance metrics statistics

表3 阶段3场景导航性能指标统计表

方法	成功率/%	导航时间/s		导航路程/m		速度/(m·s^-1)		加速度/(m·s^-2)		加加速度/(m·s^-3)
方法	成功率/%	均值	标准差	均值	标准差	均值	标准差	均值	标准差	均值	标准差
设计1	80	4.0	2.2	11.4	6.2	2.9	0.3	-0.1	1.3	-0.1	16.9
设计2	79	4.0	2.1	11.4	6.2	2.9	0.2	-0.1	2.2	0.0	35.9
设计3	88	8.8	5.0	15.4	8.6	1.8	0.4	0.3	1.8	-0.1	6.6
设计4	84	4.9	2.4	11.6	6.3	2.2	0.4	0.5	1.3	-0.3	4.9
本文方法	89	5.9	3.3	13.0	7.3	2.2	0.4	0.3	1.4	-0.5	4.2

Fig.10 Demonstration of the navigation results of different methods in Stage 3 scenario

图10 阶段3场景下不同方法导航结果展示

Full size|PPT slide

经过阶段4场景训练后统计得到的本文方法和设计1~设计4各项性能指标对比如表4所示。图11展示了其中随机抽取的一个验证场景以及机器人在该场景下的导航过程。

Table 4 Stage 4 scenario navigation performance metrics statistics

表4 阶段4场景导航性能指标统计表

方法	成功率/%	导航时间/s		导航路程/m		速度/(m·s^-1)		加速度/(m·s^-2)		加加速度/(m·s^-3)
方法	成功率/%	均值	标准差	均值	标准差	均值	标准差	均值	标准差	均值	标准差
设计1	81	3.9	2.2	11.2	6.5	2.9	0.3	-0.1	1.7	-0.4	24.7
设计2	75	3.8	2.2	10.8	6.3	2.9	0.3	-0.1	2.1	0.4	32.9
设计3	85	9.0	5.4	15.1	8.7	1.7	0.4	0.3	1.8	-0.1	6.5
设计4	84	4.8	2.5	11.5	6.5	2.2	0.4	0.6	1.3	-0.3	4.8
本文方法	86	5.8	3.3	12.5	7.1	2.1	0.4	0.3	1.4	-0.5	4.3

Fig.11 Demonstration of the navigation results of different methods in Stage 4 scenario

图11 阶段4场景下不同方法导航结果展示

Full size|PPT slide

为了验证本文方法改进的有效性,将本文方法与端到端方法(设计1)、基于安全凸空间的端到端方法(设计2)、基于安全凸空间的MPC单点跟踪方法(设计3)、基于原始点云的MPC跟踪方法(设计4)这4种方法进行了对比实验。共有纯静态(阶段2场景)、动态障碍物稀疏(阶段3场景)、动态障碍物稠密(阶段4场景)3种不同复杂程度的场景。

在动作空间设计上,相较于本文方法,设计3将动作空间简化为单个长期参考位置,虽然设计3在3种场景下的平均导航成功率为87.53%,接近本文方法的87.93%,但是设计3的平均导航时间比本文方法多了3.2s,导航平均路程长了2.69m。设计1和设计2采用了端到端的连续二维速度作为动作空间,相较于采用了短长期参考位置点并用MPC进行跟踪的本文方法,设计1和设计2的平均导航成功率分别低了9%和11.23%。

在状态空间设计上,相较于设计1和设计4直接将原始点云数据作为状态输入的设计,本文方法在3种场景下的平均导航成功率分别高了9%和4.53%。

由于本文研究的重点在于提升在全局地图未知且环境内存在动态和静态障碍物场景下的导航成功率、时间和路程消耗等性能指标,并没有重点关注运动的平滑性,所以相较于其他设计方法,本文方法在加速度、加加速度指标上的优势并不明显。

奖励函数r_t₁和r_t₂在阶段5~7场景下进行的消融实验数据如表5所示。由表5可以看出:添加了本文特殊设计惩罚项

r c t

和

r f t

的r_t₁相较于r_t₂,在3个阶段场景下,都有更高的导航成功率;在前两个阶段场景下,r_t₁ 的导航时间和导航路程的均值和标准差都更小,且随着动态障碍物数量的增多,这种优势越来越明显。实验结果能充分证明本文自行设计的惩罚项

r c t

和

r f t

的合理性和有效性。

**Table 5 Reward functions r_t₁ and r_t₂ navigation performance statistics in the scenarios at Stages 5 to 7**

表5 r_t₁和r_t₂阶段5~阶段7场景下导航性能统计表

奖励函数	阶段	成功率	导航时间/s		导航路程/m		速度/(m·s^-1)		加速度/(m·s^-2)		加加速度/(m·s^-3)
奖励函数	阶段	成功率	均值	标准差	均值	标准差	均值	标准差	均值	标准差	均值	标准差
	5	87	2.8	1.6	4.6	2.5	1.6	0.4	0.6	1.4	-0.9	4.1
r_t₁	6	77	2.8	1.8	4.1	2.4	1.4	0.4	0.6	1.4	1.4	4.1
	7	68	3.1	2.1	4.2	2.5	1.4	0.4	0.5	1.3	-0.7	4.3
	5	87	2.9	1.7	4.6	2.5	1.6	0.4	0.6	1.4	-0.9	4.0
r_t₂	6	75	3.0	1.8	4.3	2.4	1.5	0.4	0.6	1.4	-0.8	4.2
	7	65	2.9	2.0	3.9	2.2	1.4	0.4	0.6	1.3	-0.8	4.2

5 结论

本文针对机器人在未知动态环境下的自主导航问题,提出一种基于DRL的移动机器人导航方法,由动作空间设计、状态空间设计、奖励函数和网络结构组成。

在动作空间设计上,本文方法结合了安全凸空间特征和机器人运动学约束,设计出包含短期和长期参考位置点的动作空间。在状态空间设计上,本文方法除了常规的距离、速度等状态量外,还添加了安全凸空间、参考位置点等状态元素,丰富了机器人对环境和自身状态的感知。

在奖励函数设计上,本文方法考虑了到达目标点、避开障碍物、贴近全局参考轨迹多个奖励项,设置了丰富的中间奖励信号以缓解稀疏回报问题。在训练策略上,本文方法设计了从简单到复杂的多阶段训练流程,这种分阶段的课程训练有助于提升智能体学习效率和泛化能力。

实验结果表明,本文方法可以取得更高的导航成功率、更短的时间和路程消耗,并展现出较强的泛化能力。这充分验证了本文方法在多个方面的改进使得机器人在静态和动态环境下均有良好的表现,特别是在复杂动态环境中表现突出,使其成为动态环境下机器人自主导航问题的一种有效解决方案。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	HESS W, KOHLER D, RAPP H, et al. Real-time loop closure in 2D LIDAR SLAM[C]// Proceedings of 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016: 1271-1278. Cited in this article [1]

[2]	MUR-ARTAL R, TARDÓS J D. ORB-SLAM 2: an open-source slam system for monocular, stereo, and RGB-D cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262. Cited in this article [1]

[3]	PÜTZ S, SIMÓN J S, HERTZBERG J. Move base flex a highly flexible navigation framework for mobile robots[C]// Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid, Spain:IEEE, 2018: 3416-3421. Cited in this article [1]

[4]	CAI K Q, WANG C Q, CHENG J Y, et al. Mobile robot path planning in dynamic environments: a survey[J]. Instrumentation, 2019, 6(2): 90-100. Cited in this article [1]

[5]

王霄龙, 陈洋, 胡棉, 等. 基于改进深度Q网络的机器人持续监测路径规划[J]. 兵工学报, 2024, 45(6):1813-1823.

https://doi.org/10.12382/bgxb.2023.0227

Abstract

持续监测问题指的是通过规划移动机器人在路网中的巡逻路线,从而对路网环境实施长期监测,以实现保障环境安全的目的。环境中的待监测点通常受到最大允许监测周期(重访周期)的限制,并且最优的监测路径不应具有固定的周期,否则监测过程容易被恶意入侵者针对性地破坏。针对上述问题,提出一种基于改进深度Q网络(Deep Q Networks, DQN)的机器人监测路径规划算法。改进DQN的决策方法,使机器人获得一条监测频率高、安全性好(防止被智能入侵的能力)、非固定周期的监测路径。仿真实验结果表明:所提算法可以高效地覆盖所有待监测节点;与传统的DQN算法相比,该算法不会使监测陷入周期性的循环路径之中,增强了系统的抗入侵能力。

WANG

X L

, CHEN

, HU

, et al. Robot path plannimg for persistent monitoring based on improved deep Q networks[J]. Acta Armamentarii, 2024, 45(6):1813-1823. (in Chinese)

Cited in this article [1]

[6]	董豪, 杨静, 李少波, 等. 基于深度强化学习的机器人运动控制研究进展[J]. 控制与决策, 2022, 37(2):278-292. DONG H, YANG J, LI S B, et al. Research progress of robot motion control based on deep reinforcement learning[J]. Control and Decision, 2022, 37(2): 278-292. (in Chinese) Cited in this article [1]

[7]	XU X L, CAI P, AHMED Z, et al. Path planning and dynamic collision avoidance algorithm under COLREGs via deep reinforcement learning[J]. Neurocomputing, 2022, 468: 181-197. Cited in this article [1]

[8]	YAN N, HUANG S B, KONG C. Reinforcement learning-based autonomous navigation and obstacle avoidance for USVs under partially observable conditions[J]. Mathematical Problems in Engineering, 2021, 2021: 5519033. Cited in this article [2]

[9]

PFEIFFER

, SCHAEUBLE

, NIETO

, et al. From perception to decision: a data-driven approach to end-to-end motion planning for autonomous ground robots[C]// Proceedings of 2017 IEEE International Conference on Robotics and Automation. Marina Bay Sands, Singapore: IEEE, 2017: 1527-1533.

Cited in this article [2]

[10]	TAI L, PAOLO G, LIU M. Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation[C]// Proceedings of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver, Canada: IEEE, 2017: 31-36. Cited in this article [2]

[11]	XIE L H, WANG S, ROSA S, et al. Learning with training wheels: Speeding up training with a simple controller for deep reinforcement learning[C]// Proceedings of 2018 IEEE International Conference on Robotics and Automation. Brisbane, Australia: IEEE, 2018: 6276-6283. Cited in this article [2]

[12]	LIU L C, DUGAS D, CESARI G, et al. Robot navigation in crowded environments using deep reinforcement learning[C]// Proceedings of 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas, NV, US: IEEE, 2020: 5671-5677. Cited in this article [2]

[13]

黄昱洲, 王立松, 秦小麟. 一种基于深度强化学习的无人小车双层路径规划方法[J]. 计算机科学, 2023, 50(1):194-204.

https://doi.org/10.11896/jsjkx.220500241

Abstract

随着智能无人小车的广泛应用,智能化导航、路径规划和避障技术成为了重要的研究内容。文中提出了基于无模型的DDPG和SAC深度强化学习算法,利用环境信息循迹至目标点,躲避静态与动态的障碍物并且使其普适于不同环境。通过全局规划和局部避障相结合的方式,该方法以更好的全局性与鲁棒性解决路径规划问题,以更好的动态性与泛化性解决避障问题,并缩短了迭代时间;在网络训练阶段结合PID和A<sup>*</sup>等传统算法,提高了所提方法的收敛速度和稳定性。最后,在机器人操作系统ROS和仿真程序gazebo中设计了导航和避障等多种实验场景,仿真实验结果验证了所提出的兼顾问题全局性和动态性的方法具有可靠性,生成的路径和时间效率有所优化。

HUANG

Y Z

, WANG

L S

, QIN

X L

. Bi-level path planning method for unmanned vehicle based on deep reinforcement learning[J]. Computer Science, 2023, 50(1): 194 -204. (in Chinese)

https://doi.org/10.11896/jsjkx.220500241

Cited in this article [2] Abstract

With the wide application of intelligent unmanned vehicles,intelligent navigation,path planning and obstacle avoidance technology have become important research contents.This paper proposes model-free deep reinforcement learning algorithms DDPG and SAC,which use environmental information to track to the target point,avoid static and dynamic obstacles,and can be generally suitable for different environments.Through the combination of global planning and local obstacle avoidance,it solves the path planning problem with better globality and robustness,solves the obstacle avoidance problem with better dynamicity and generalization,and shortens the iteration time.In the network training stage,PID,A<sup>*</sup> and other traditional algorithms are combined to improve the convergence speed and stability of the method.Finally,a variety of experimental scenarios such as navigation and obstacle avoidance are designed in the robot operating system ROS and the simulation program gazebo.Simulation results verify the reliability of the proposed approach,which takes the global and dynamic nature of the problem into account and optimizes the generated paths and time efficiency.

[14]	BRITO B, EVERETT M, HOW J P, et al. Where to go next: learning a subgoal recommendation policy for navigation in dynamic environments[J]. IEEE Robotics and Automation Letters, 2021, 6(3): 4616-4623. Cited in this article [3]

[15]	NIKDEL P, VAUGHAN R, CHEN M, et al. LBGP: learning based goal planning for autonomous following in front[C]// Proceedings of 2021 International Conference on Robotics and Automation. Xi’an, China: IEEE, 2021: 3140-3146. Cited in this article [2]

[16]	ZHONG X G, WU Y W, WANG D, et al. Generating large convex polytopes directly on point clouds: arXiv:2010.08744[R/OL]. Ithaca, NY, US: Cornell University, 2020 (2020-10-17) [2024-02-25]. https://arxiv.org/abs/2010.08744. https://arxiv.org/abs/2010.08744 Cited in this article [1]

[17]	ZHUANG X. The strategy entropy of reinforcement learning for mobile robot navigation in complex environments[C]// Proceedings of 2005 IEEE International Conference on Robotics and Automation. Barcelona, Spain:IEEE, 2005: 1742-1747. Cited in this article [1]

[18]	SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms: arXiv:1707.06347[R/OL]. Ithaca, NY, US: Cornell University, 2017 (2017-07-20) [2024-02-25]. https://arxiv.org/abs/1707.06347. https://arxiv.org/abs/1707.06347 Cited in this article [1]

[19]	HEESS N, TB D, SRIRAM S, et al. Emergence of locomotion behaviours in rich environments: arXiv: 1707.02286[R/OL]. Ithaca, NY, US: Cornell University, 2017 (2017-07-07) [2024-02-25]. https://arxiv.org/abs/1707.02286. https://arxiv.org/abs/1707.02286 Cited in this article [1]

[20]	DOLGOV D, THRUN S, MONTEMERLO M, et al. Practical search techniques in path planning for autonomous driving[J]. Ann Arbor, 2008, 1001(48105): 18-80. Cited in this article [1]

[21]	WERLING M, ZIEGLER J, KAMMEL S, et al. Optimal trajectory generation for dynamic street scenarios in a frenet frame[C]// Proceedings of 2010 IEEE International Conference on Robotics and Automation. Anchorage, AK, US: IEEE, 2010: 987-993. Cited in this article [1]

[22]	YOO H, ZAVALA V M, LEE J H. A dynamic penalty function approach for constraint-handling in reinforcement learning[J]. IFAC-PapersOnLine, 2021, 54(3): 487-491. Cited in this article [1]

[23]	RAILEANU R, FERGUS R. Decoupling value and policy for generalization in reinforcement learning[C]// Proceedings of the 38th International Conference on Machine Learning. Virtual Event: PMLR, 2021: 8787-8798. Cited in this article [1]

[24]	NARVEKAR S, PENG B, LEONETTI M, et al. Curriculum learning for reinforcement learning domains: a framework and survey[J]. The Journal of Machine Learning Research, 2020, 21(1): 7382-7431. Cited in this article [1]

[25]	ZHU K, ZHANG T. Deep reinforcement learning based mobile robot navigation: a review[J]. Tsinghua Science and Technology, 2021, 26(5): 674-691. Cited in this article [1]

PDF(4123 KB)

Accesses

Citation

Detail

Sections

Recommended

Abstract
Key words
QR code of this article
Cite this article
0 引言
1 基于安全凸空间的动作空间设计
1.1 安全凸空间
Fig.1 Iterative solution procedure
1.2 动作与动作空间设计
Fig.2 Short-term and long-term reachable intersection spaces
Fig.3 Short-term reference position calculation
Fig.4 Long-term reference position calculation
2 MPC设计
3 基于DRL的移动机器人导航方法
3.1 近端策略优化
3.2 状态空间设计
Fig.5 Schematic diagram of state-space observations
3.3 奖励函数设计
Fig.6 Schematic diagram of potential energy shaping reward based on global path
3.4 网络结构设计
Fig.7 Design of state value network
Fig.8 Design of strategy network
3.5 模型训练
Table 1 Staged training environment parameter settings
4 仿真实验与结果分析
4.1 实验设置
4.2 实验结果与分析
Table 2 Stage 2 scenario navigation performance metrics statistics
Fig.9 Demonstration of the navigation results of different methods in Stage 2 scenario
Table 3 Stage 3 scenario navigation performance metrics statistics
Fig.10 Demonstration of the navigation results of different methods in Stage 3 scenario
Table 4 Stage 4 scenario navigation performance metrics statistics
Fig.11 Demonstration of the navigation results of different methods in Stage 4 scenario
Table 5 Reward functions rt1 and rt2 navigation performance statistics in the scenarios at Stages 5 to 7
5 结论
References

Received	Revised	Published
2023-09-27	2024-02-26	2024-12-31
Just Accepted Date	Issue Date
2024-02-27	2024-02-27

0 引言

1 基于安全凸空间的动作空间设计

1.1 安全凸空间

Fig.1 Iterative solution procedure

1.2 动作与动作空间设计

Fig.2 Short-term and long-term reachable intersection spaces

Fig.3 Short-term reference position calculation

Fig.4 Long-term reference position calculation

2 MPC设计

3 基于DRL的移动机器人导航方法

3.1 近端策略优化

3.2 状态空间设计

Fig.5 Schematic diagram of state-space observations

3.3 奖励函数设计

Fig.6 Schematic diagram of potential energy shaping reward based on global path

3.4 网络结构设计

Fig.7 Design of state value network

Fig.8 Design of strategy network

3.5 模型训练

Table 1 Staged training environment parameter settings

4 仿真实验与结果分析

4.1 实验设置

4.2 实验结果与分析

Table 2 Stage 2 scenario navigation performance metrics statistics

Fig.9 Demonstration of the navigation results of different methods in Stage 2 scenario

Table 3 Stage 3 scenario navigation performance metrics statistics

Fig.10 Demonstration of the navigation results of different methods in Stage 3 scenario

Table 4 Stage 4 scenario navigation performance metrics statistics

Fig.11 Demonstration of the navigation results of different methods in Stage 4 scenario

**Table 5 Reward functions r_t₁ and r_t₂ navigation performance statistics in the scenarios at Stages 5 to 7**

5 结论

{{custom_sec.title}}

{{custom_sec.title}}

{{custom_fnGroup.title_en}}

Footnotes

模态框（Modal）标题

Please choose a citation manager

Content to export

Abstract

Key words

QR code of this article

Cite this article

0 引言

1 基于安全凸空间的动作空间设计

1.1 安全凸空间

Fig.1 Iterative solution procedure

1.2 动作与动作空间设计

Fig.2 Short-term and long-term reachable intersection spaces

Fig.3 Short-term reference position calculation

Fig.4 Long-term reference position calculation

2 MPC设计

3 基于DRL的移动机器人导航方法

3.1 近端策略优化

3.2 状态空间设计

Fig.5 Schematic diagram of state-space observations

3.3 奖励函数设计

Fig.6 Schematic diagram of potential energy shaping reward based on global path

3.4 网络结构设计

Fig.7 Design of state value network

Fig.8 Design of strategy network

3.5 模型训练

Table 1 Staged training environment parameter settings

4 仿真实验与结果分析

4.1 实验设置

4.2 实验结果与分析

Table 2 Stage 2 scenario navigation performance metrics statistics

Fig.9 Demonstration of the navigation results of different methods in Stage 2 scenario

Table 3 Stage 3 scenario navigation performance metrics statistics

Fig.10 Demonstration of the navigation results of different methods in Stage 3 scenario

Table 4 Stage 4 scenario navigation performance metrics statistics

Fig.11 Demonstration of the navigation results of different methods in Stage 4 scenario

Table 5 Reward functions rt1 and rt2 navigation performance statistics in the scenarios at Stages 5 to 7

5 结论

{{custom_sec.title}}

{{custom_sec.title}}

References

{{custom_fnGroup.title_en}}

Footnotes

**Table 5 Reward functions r_t₁ and r_t₂ navigation performance statistics in the scenarios at Stages 5 to 7**