您现在的位置是:首页 >技术教程 >【论文阅读】BEVNav: Robot Autonomous Navigation ViaSpatial-Temporal Contrastive Learning inBird’s-Eye View网站首页技术教程
【论文阅读】BEVNav: Robot Autonomous Navigation ViaSpatial-Temporal Contrastive Learning inBird’s-Eye View
摘要:在无地图环境中,目标驱动的移动机器人导航需要有效的状态表示以实现可靠决策。受鸟瞰图(BEV)在点云视觉感知中良好特性的启发,本文提出了一种名为 BEVNav 的新型导航方法。它利用深度强化学习来学习 BEV 表示,提高决策的可靠性。首先,我们提出一种自监督的时空对比学习方法来学习 BEV 表示。在空间上,通过点云的两个随机增强视图相互预测,强化空间特征。在时间上,将当前观测与连续帧的动作相结合,预测未来特征,建立观测转换与动作之间的关系,以捕捉时间线索。然后,将这种时空对比学习融入到软演员 - 评论家 Soft Actor-Critic 强化学习框架中,BEVNav 提供了卓越的导航策略。大量实验表明,BEVNav 在行人密集的环境中具有很强的鲁棒性,在多个基准测试中优于现有方法。代码将在 BEVNav 上公开。
一、引言
在无地图环境中,目标驱动的移动机器人导航是机器人学中的一项基本且具有挑战性的任务。其目标是在动态场景中到达指定目标的同时避免碰撞。现有方法主要利用深度图像来感知环境。例如,Thomas 等人提出了一种自注意力模型,从深度图像中提取特征;de Jesus 等人开发了一种基于深度图像的对比表示学习方法,用于引导无人机在无地图环境中导航;Jiang 等人介绍了一种使用深度图像的端到端强化学习(RL)导航算法,采用深度图像掩码对比学习技术来表示场景的时空状态。
然而,使用深度图像作为二维观测,很难直接学习与三维动作的映射关系,尤其是在动态复杂环境中。受 BEV 表示学习在感知任务中成功应用的启发,我们发现 BEV 在三维移动机器人导航中具有巨大潜力。BEV 可以更好地捕捉静态和动态障碍物,因为在自动驾驶等场景中,障碍物的移动主要发生在水平面上。通过压缩三维点云,BEV 自然地过滤掉高度维度的噪声,为规划正确路线带来希望。为此,我们提出了一种基于深度强化学习(DRL)的新型导航方法 BEVNav,它采用稀疏 - 密集 BEV 网络,通过深度强化学习从稀疏的三维点编码密集的 BEV 特征,从而提高决策的可靠性。
从技术上讲,为了增强对动态场景理解和支持可靠决策至关重要的 BEV 表示,我们设计了一种新的自监督表示学习方法。如图 1 所示,它由空间对比学习(SCL)和时间对比学习(TCL)组成。虽然强化学习可以有效地处理决策问题,但它没有直接解决学习有效状态表示的挑战,而这在机器人导航中至关重要。相比之下,自监督对比学习可以通过利用未标记的观测显著提高空间表示的质量。受 SimSiam 的启发,我们提出了 SCL,它使用非对称架构使点云的两个随机增强视图相互预测,显著提高了机器人视觉表示的质量。
SimSiam 是一种自监督学习方法,由论文《Exploring simple siamese representation learning》提出,核心在于通过构建简单的连体网络结构,利用无标签数据学习有效的视觉特征表示。它对 BEVNav 中的空间对比学习(SCL)设计有重要启发。
这种方法为复杂导航场景中的机器人提供了更准确的空间状态估计,有助于实现更高效、可靠的导航性能。另一方面,为了增强机器人在复杂环境中的决策能力,准确理解和预测场景中障碍物的动态变化对做出有效的导航决策至关重要,我们提出了 TCL,将当前观测与连续帧的动作相结合,预测未来特征。它建立了观测转换与动作之间的关系,以捕捉时间线索。基于这些设计,BEVNav 在具有挑战性的场景中,包括在拥挤的行人环境中导航和推广到未见过的环境,表现出比当前最先进(SOTA)方法显著的性能优势。
本文的主要贡献如下:
- 提出了 BEVNav,这是一种基于深度强化学习的新型视觉导航方法,引入 BEV 表示,增强机器人在导航领域对动态环境的感知。
- 引入稀疏 - 密集 Sparse-Dense BEV 网络,用于从稀疏的三维点云提取密集的 BEV 特征。此外,提出了一种新的自监督学习方法,结合了空间和时间对比学习。这种方法帮助机器人有效地捕捉场景障碍物的空间线索,并推断其时间动态。
- 在多个公共基准测试上的实验表明,所提出的 BEVNav 优于以前的 SOTA 方法,有效地提高了在具有挑战性的场景中的导航性能。
二、相关工作
(一)无地图点目标机器人导航中的深度强化学习
在机器人视觉导航领域,研究人员致力于提高环境感知和决策能力。Wijmans 等人开发了一种分布式、去中心化和同步的强化学习方法(DD - PPO),实现了显著的训练效率,并解决了无地图的复杂自主导航任务。Partsey 等人优化了数据集和模型大小,并使用无人工标注的数据增强技术,在现实的点目标导航挑战中提高了导航成功率,即使在缺乏 GPS 和指南针数据的环境中也是如此。同时,Tsunekawa 等人使用基于点云的方法和多尺度特征网络解决部分可观测性问题,尽管他们采用的 PointNet 架构没有提供清晰的空间层次结构,限制了其在复杂场景中的有效性。相比之下,本文提出了一种基于深度强化学习的新型导航方法 BEVNav,它将鸟瞰图中的三维点云转换为有效表示,以在复杂环境中实现准确的视觉感知和决策。
(二)机器人导航中的三维表示
机器人的三维感知模块主要分为以下三类:
- 基于多视图投影的模型:这些模型广泛使用从不同视图捕获的图像作为输入,展示三维环境在各种图像平面上的投影。然而,这种方法的一个显著限制是在投影过程中会丢失一些几何信息。
- 基于点的模型:如 PointNet 和 PointNet++,这些模型直接有效地处理三维点云。在机器人领域,许多研究使用 PointNet 或 PointNet++ 作为视觉特征提取的编码器。
- 基于体素的模型:这些模型是感知三维环境的另一个研究方向,通过体素化将二维像素的概念扩展到三维空间中的小立方体单元。与传统的点云或网格模型相比,体素化提供了一种更直观、结构化的方式来处理和分析三维点云。最近的工作如 C2FARM 和 PERACT 尝试使用体素化的观测和动作空间进行 6 自由度操作。与这些方法不同,本文将 BEV 表示引入导航领域,并设计了一种稀疏 - 密集 BEV 网络,从稀疏的三维点云获得密集的 BEV 特征。这种表示有效地保留了空间邻近性,使复杂环境中物体和障碍物的识别和定位更加准确和高效。
(三)机器人导航中的 BEV 表示
在机器人导航领域,准确表示环境数据,特别是通过 BEV 表示,对于提高决策和导航精度至关重要。为了解决这种视角固有的挑战,最近的研究集中在开发先进技术,以实现对周围环境的动态和精确映射。Li 等人引入了 Bi - Mapper 框架,以对抗前视图的几何失真,通过异步学习策略和跨空间损失(ASL)集成全局和局部知识。同时,Ross 等人开发了 BEV - SLAM,这是一种基于图的 SLAM 系统,使用语义分割的 BEV 预测进行大规模精确映射。类似地,Liu 等人提出了 BEV 场景图(BSG),利用多步 BEV 表示超越了现有的视觉语言导航(VLN)方法。本文通过提出一种基于深度强化学习的 BEV 表示视觉导航算法,推进了这些概念,该算法将三维点云转换为 BEV,并采用时空对比学习来高效开发策略。
三、方法
本研究专注于机器人自主导航的强化学习,旨在通过与环境的交互从三维点云观测中学习有效的策略。这个学习过程可以建模为部分可观测马尔可夫决策过程(POMDP)。在解决 POMDP 挑战时,基于演员 - 评论家框架的强化学习算法已被证明是有效的,特别是软演员 - 评论家(SAC)算法表现出卓越的性能。鉴于此,我们提出了一种基于深度强化学习的新型视觉导航方法 BEVNav,它将鸟瞰图中的三维点云转换为感知动态环境,并使用 SAC 算法学习导航策略。
一)概述
设(表示一个 POMDP,其中(O)表示观测空间,(A)表示动作空间。状态转移核表示为
,其中(
)表示观测空间上的分布。奖励函数
为每个观测 - 动作对分配即时奖励。
是折扣因子,平衡即时奖励和未来奖励的重要性。在强化学习中,主要目标是找到一个最优策略
,最大化预期累积奖励
,关注长期收益,其中
。
在机器人的自主导航任务中,需要根据当前的三维点云观测预测相应的动作,以在避开障碍物的同时到达目标。在这个框架中,设当前帧的三维点云表示为,其中
表示三维点云中的点数。在时间戳(t),我们通过深度相机获取三维点云,并将其下采样到 1024 个点作为输入。动作空间由连续的线速度和角速度组成。在时间(t)采取的动作表示为
。具体来说,线速度(v_{t})限制在((0, 1))范围内,角速度(omega_{t})限制在((-1, 1))范围内。
在强化学习中,设计有效的奖励函数来引导期望的动作至关重要。由于视觉导航要求在确保避免与任何动态或静态障碍物碰撞的同时尽快到达目标,我们在本文中设计了一个多目标奖励函数:
公式(1)对发生碰撞的机器人应用负奖励,作为对错误动作的惩罚。相反,当机器人在设定时间内成功到达目标,即到目标的距离低于预定义阈值
时,它会收到正奖励((r_{g})),以鼓励正确的动作。在其他情况下,奖励根据机器人当前的线速度和角速度以及连续帧之间到目标距离的变化进行调整。这里,(
)表示时间(t)时机器人与目标之间的距离。在本文中,我们设置(
),(
),(
)。
在本研究中,我们强调视觉观测表示学习在导航决策中的关键作用。如图 2 所示,对于三维点云的 BEV 表示学习,我们的 BEVNav 包括三个主要组件:
1)BEV 特征提取;
2)空间对比学习(SCL);
3)时间对比学习(TCL)。
我们设计了一种稀疏 - 密集 BEV 网络,利用稀疏和密集卷积有效地将三维点云嵌入到 BEV 特征图中。SCL 通过相互预测经过数据增强的特征,增强了模型的空间表示能力。同时,TCL 通过结合观测和动作空间预测未来特征,捕捉场景中的时间线索。
(二)BEV 特征提取
为了全面感知环境中的障碍物,我们专注于通过稀疏 - 密集 BEV 网络从三维点云提取有区分力的特征。如图 2(a)所示,具体来说,点云首先被划分为多个垂直柱体。
图2:BEVNav用于BEV特征提取和时空对比学习的架构。我们设计了一种新的稀疏-密集BEV网络,以有效地从三维点云提取BEV特征,并使用全局最大池化来获取潜在特征。空间对比学习旨在通过相互预测数据增强后的特征来增强空间信息的表示。时间对比学习旨在将当前观测与连续帧的动作相结合,以预测未来特征,有助于建立观测转换 observation transitions 与动作之间的关系。
这不仅保留了重要的空间信息,还将复杂的三维点云转换为更易于管理的二维格式。鉴于这些转换后的三维点云高度稀疏,我们采用稀疏卷积从这些稀疏的二维柱体中提取主要的空间特征。在随后的下采样过程中,这些稀疏特征逐渐变得密集,我们利用一系列密集卷积网络提取更高级的语义特征,即 BEV 特征
最终,我们通过全局最大池化层提取潜在特征(),用于后续的导航策略学习:
(三)空间对比学习
高质量的空间状态表示在机器人导航中至关重要。自监督对比学习可以通过利用未标记的观测显著提高空间表示的质量。此外,它还提高了强化学习中的采样效率。受 SimSiam 在自监督学习领域成功的启发,我们使用非对称架构计算预测的潜在特征与目标特征之间的距离。
如图 2(b)所示,在我们的方法中,同一三维点云()的两个随机增强视图,分别表示为(
)和(
),作为输入。每个三维点云都通过稀疏 - 密集 BEV 网络处理,以获取各自的潜在特征(
)和(
)。其中,(
)依次通过投影多层感知器(MLP)头(g)和预测 MLP 头(h)处理,生成预测特征
,而
仅通过投影 MLP 头(g)处理,最终形成目标特征
。
SCL 旨在使预测特征尽可能接近目标特征。为了实现这一目标,我们采用基于 和
之间余弦相似度的损失函数,可以表示为:
(四)时间对比学习
为了增强机器人在复杂环境中的动态推理能力,准确预测场景变化对于做出有效的导航决策至关重要。如图 2(c)所示,TCL 的核心是将当前观测与一系列连续的动作帧相结合,预测未来特征,并建立观测转换与动作之间的关系,以捕捉时间线索。通过这种方式,它实现了状态表示与动作空间之间的准确对齐。
为此,我们从状态观测和动作序列中随机采样一批转换。在这个过程中,我们将时间(t)和(t + k)的观测输入到稀疏 - 密集 BEV 网络中,获得相应的 BEV 特征
和
以及潜在特征(
),(
)。
随后,动作序列使用一个轻量级 MLP 进行编码,并与潜在特征()连接。这个组合特征然后通过另一个轻量级 MLP 预测特征(
)。同时,(
)通过一个 MLP 处理获得特征(
)。
和
然后通过时空对比学习进行学习。为了优化这个过程,我们采用对比损失函数
进行训练。
(五)基于 SAC 的强化学习
虽然深度强化学习领域有许多算法可用于学习导航策略,但我们选择 SAC 算法来训练我们的深度强化学习网络,如图 3 所示。具体来说,actor网络由稀疏 - 密集 BEV 网络和策略网络组成,它结合 BEV 特征和导航目标进行动作决策。评论家网络由稀疏 - 密集 BEV 网络和 Q 值网络组成,它结合 BEV 特征、目标和动作进行动作评估,以评估动作的质量。SAC 算法的一个显著优点是其出色的样本效率和稳定的学习性能,使其在复杂环境中特别有效。此外,SAC 通过最大化预期奖励和动作的熵来增强策略的探索能力,通常导致与其他最先进算法(如 A2C 和 TRPO)相当或更好的结果。
图3:基于软演员-评论家(SAC)的导航策略学习框架。它包含两个关键部分:1)鸟瞰图(BEV)特征提取;2)基于BEV的动作决策与动作评估。
(六)实现细节
在我们的研究中,三维点云来自 RGBD 相机。点云输入在(X)、(Y)和(Z)方向的范围分别为((-9.6, 9.6))米、((-1.6, 0.448))米和((0, 10))米,柱体大小为([0.15, 0.016, 0.5])。需要注意的是,每个柱体的高度与点云在(Z)方向的范围相匹配,这导致三维点云沿(Z)轴压缩并转换为 BEV 特征。对于特征提取,我们使用由四个稀疏卷积块和三个密集卷积块组成的稀疏 - 密集 BEV 网络骨干,其中稀疏块分别包含个通道,密集块每个有 128 个通道。
四、实验
在本节中,我们将详细介绍实验设置,并开展一系列实验,旨在展示我们的方法相较于其他最先进方法在性能上的优越性和实际应用的有效性。
(A)仿真设置
在本研究中,我们利用 Gazebo 模拟器和 PEDSIM 库进行仿真实验。机器人配备了英特尔 RealSense D435i RGB-D 相机传感器,该传感器通过三维点云捕获场景中动态和静态障碍物的实时信息。D435i 相机的深度设置为 [0.3, 10] 米,视场角约为 85°。行人的速度设定为每秒 1 米。我们采用了两种不同的实验场景,如图 4 所示。在训练过程中,每个情节都会在无地图空间中随机生成盒装障碍物的位置以及机器人的初始位置和目标位置。
(B)训练细节
我们使用 PyTorch 框架实现该算法。模型参数通过 Adam 优化器进行优化,学习率从(10^{-3})逐步衰减,批量大小为 64。此外,在训练过程中,我们采用了幅度为 0.01 的随机平移数据增强技术。
(C)主要结果与分析
为了进行比较,我们采用了导航文献中广泛使用的三个指标:1)成功率(SR):定义为(frac{1}{N}sum_{i = 1}^{N}S_{i}),其中(N = 100)是情节数量,(S_{i})是情节成功与否的二元指标;2)导航速度;3)成功路径长度(SPL):定义为(frac{1}{N}sum_{i = 1}^{N}S_{i}frac{L_{i}}{max(P_{i}, L_{i})}),它衡量了机器人在情节(i)中成功到达目标时的路径质量和导航效率,其中(P_{i})是路径长度,(L_{i})是最优轨迹长度。我们还给出了 “奖励” 的比较,这可以为导航过程中的模型行为提供有价值的见解。
我们首先在无行人的环境中进行比较,结果如表 I 所示。SAC-P 和 SAC-B 代表两个基线,它们使用软演员 - 评论家算法,分别采用传统的 PointNet 和我们的稀疏 - 密集 BEV 网络进行特征提取。CURL-B 在 SAC-B 的基础上采用了空间对比学习。DMCL 是基于时空掩码对比学习开发的,以深度图像作为状态观测。受深度图像使用的限制,DMCL 的性能并不理想。采用稀疏 - 密集 BEV 网络的方法 SAC-B 在导航成功率和效率方面优于采用 PointNet 的方法 SAC-P。这验证了我们的稀疏 - 密集 BEV 网络的有效性,证实了将三维点云转换为 BEV 表示有助于更好地感知环境,更适合机器人导航任务。CURL-B 采用空间对比学习作为辅助任务,获得了更好的性能。最后,我们的 BEVNav 通过结合时间和空间对比学习辅助任务,其结果优于先前的方法。此外,我们在训练过程中未见过的 LobbyWorld 环境中对模型进行测试。表 I 底部的结果表明,我们的 BEVNav 保持了出色的成功率和效率,证实了其卓越的泛化性能。
然后,我们在有 5 - 20 名行人(采样间隔为 5)的 Lobby-World 环境中进行比较。所有模型仅在 Square-World 环境中进行训练。如表 II 所示,SAC-P 在有行人的环境中导航性能较差。得益于时空状态表示,DMCL 的性能优于 SAC-P。但是,由于使用深度图像作为状态观测的限制,DMCL 的性能不如我们的 BEVNav。我们的 BEVNav 的结果展示了所提出的 BEV 表示和时空对比学习的优越性。我们的策略在未见过的复杂环境中的强大泛化能力也得到了凸显。值得注意的是,成功率的下降部分是由于机器人的视野有限,例如,无法检测到其后方的行人,使得有效避开行人变得具有挑战性。
(D)消融研究
除了对表 I 中设计选择的研究之外,我们还研究了时间对比学习中预测窗口(K)的影响。这个超参数对提升导航性能起着关键作用。在本研究中,我们研究了(K)的三种不同设置,并观察到随着(K)从 1 增加到 3 性能有所提升。如表 III 所示,当(K = 1)时,与不使用时间对比学习辅助任务的结果相比,性能有显著提升。考虑到场景的复杂性和可变性,较大的(K)值可以提供更准确的预测。然而,(K = 2)和(K = 3)时的性能提升不如(K = 1)时明显。基于这些发现,我们最终选择(K = 3)作为默认设置。需要注意的是,(K)的最优值可能因其他连续控制任务而有所不同。
(E)讨论
虽然所提出的 BEVNav 在具有挑战性的场景中表现出色,但当行人数量增加时可能会发生碰撞。可以在几个方向上进行更多的研究工作,例如,结合时间和多模态信息。在我们的实验中,我们仅使用当前帧的点云作为状态观测,没有依赖先前帧中的时间信息。利用当前帧和先前帧有效地预测行人运动轨迹是很有前景的。例如,通过连接先前帧的额外时间 BEV 特征,可以很容易地将时间信息引入我们的 BEVNav 中。此外,我们方法的另一个局限性是在现实世界的无地图场景中如何定义导航目标和计算距离。在未来的研究中,我们可以利用 RTK-GPS 进行户外导航,并使用各种采用基准标记的室内定位系统,以弥合模拟环境与现实应用之间的差距。此外,点云通常是稀疏和不完整的,缺乏场景语义信息,而图像可以捕捉场景细节并为场景表示提供丰富的语义信息。BEV 作为多模态融合的统一表示,可以巧妙地保留图像中的语义信息和点云中的几何信息。我们期望 BEVNav 能够启发机器人视觉导航中关于多帧、多模态融合方法的进一步研究。
五、结论
本文提出了一种基于深度强化学习的新型视觉导航方法 BEVNav。它引入了鸟瞰图(BEV)表示,以增强机器人在导航领域对动态环境的感知。具体来说,我们设计了一种稀疏 - 密集 BEV 网络作为编码器,从三维点云提取 BEV 特征,以有效地感知场景中的障碍物。此外,我们在强化学习框架中设计了时空对比学习,通过建立观测转换与动作之间的关系,帮助学习更好的空间特征并捕捉时间线索。大量实验表明,BEVNav 可以在各种未见过的、复杂的和行人密集的环境中实现高质量的导航。