当前位置: 首页 > 科技观察

VectorFlow-Combiningimagesandvectorsfortrafficoccupancyandflowprediction

时间:2023-03-13 06:56:03 科技观察

arXiv论文《VectorFlow:CombiningImagesandVectorsforTrafficOccupancyandFlowPrediction》,2022年8月9日,清华大学工作。预测道路代理人的未来行为是自动驾驶的一项关键任务。虽然现有模型在预测代理人的未来行为方面取得了巨大成功,但有效预测多个代理人的行为仍然是一个挑战。最近,有人提出了占用流场(OFF)符号,通过占用网格和流的组合来表示道路代理的联合未来状态,从而实现联合一致的预测。这项工作提出了一种新的占用流场预测器,一种从光栅化交通图像中学习特征的图像编码器,以及一种捕获连续代理轨迹和地图状态信息的矢量编码器,它们结合起来生成准确的占用和流量预测。在生成最终预测之前,两个编码特征由多个注意力模块融合。该模型在Waymo开放数据集OccupancyandFlowPredictionChallenge中排名第三,并在occludedoccupancyandflowprediction任务中取得最佳性能。OFF表示(“OccupancyFlowFieldsforMotionForecastinginAutonomousDriving”,arXiv2203.03875,3,2022)是一个时空网格,其中每个网格单元包括i)任何代理将占据该单元的概率和ii)表示占用该单位的特工流动流。它提供了更好的效率和可扩展性,因为预测占用流场的计算复杂度与场景中道路代理的数量无关。图为OFF的框架图。编码器结构如下。第一阶段接收所有三种类型的输入点,并使用受PointPillars启发的编码器处理它们。交通灯和航路点直接放置在网格中。agent在每个输入时间步t的状态编码是从每个agent的BEV框中统一采样一个固定大小点的网格,并将这些点与相关的agent状态属性(包括在时间t的one-hot编码)放在网格。每个支柱输出它包含的所有点的嵌入。解码器结构如下。第二阶段接收每个柱嵌入作为输入,并生成每个网格单元的占用和流量预测。解码器网络基于EfficientNet,它使用EfficientNet作为骨干来处理每个pillarembedding以获得特征图(P2,...P7),其中Pi从输入中被下采样2^i。然后将这些多尺度特征以双向方式与BiFPN网络融合。然后,所有代理类K的占用率和流量预测在所有时间步长都使用最高分辨率的特征图P2进行回归。具体来说,解码器为每个网格单元输出一个向量,同时预测占用率和流量。对于本文,做了以下问题设置:给定场景中交通代理的1秒历史和场景上下文,例如地图坐标,目标是预测i)未来观察到的占用,ii)未来遮挡占用,以及iii)场景中8个未来路点上所有车辆的未来流量,其中每个路点覆盖1秒的间隔。将输入处理为光栅化图像和一组向量。为了获得图像,在给定观察到的代理轨迹和地图数据的情况下,在相对于自动驾驶汽车(SDC)的本地坐标的每个过去时间步创建一个栅格化网格。要获得与光栅化图像一致的矢量化输入,请遵循相同的变换,相对于SDC的本地视图旋转和移动输入代理和地图坐标。编码器由两部分组成:编码光栅化表示的VGG-16模型和编码矢量化表示的VectorNe模型。矢量化特征通过交叉注意力模块与VGG-16最后两步的特征融合。通过FPN-style网络,融合后的特征被上采样到原始分辨率,用作输入光栅化特征。解码器是一个单一的2D卷积层,它将编码器输出映射到占用流场预测,它由一系列8网格图组成,表示未来8秒后每个时间步的占用和流量预测。如图:使用torchvision的标准VGG-16模型作为光栅化编码器,遵循VectorNet的实现(代码https://github.com/Tsinghua-MARS-Lab/DenseTNT)。VectorNet的输入包括i)一组形状为B×Nr×9的道路元素向量,其中B为batchsize,Nr=10000为道路元素向量的最大数量,最后一个维度9表示每个向量和向量ID两个端点的位置(x,y)和方向(cosθ,sinθ);ii)一组形状为B×1280×9的代理向量,包括场景中多达128个代理的向量,其中每个代理有10个来自观察位置的向量。遵循VectorNet,首先在每个交通元素的ID上运行局部图,然后在所有局部特征上运行全局图,得到形状为B×128×N的向量化特征,其中N是交通元素的总数,包括道路要素和智力体。特征的大小再经MLP层进一步四倍化得到最终的向量化特征V,其形状为B×512×N,其特征大小与图像特征的通道大小一致。VGG每一阶段的输出特征表示为{C1,C2,C3,C4,C5},相对于输入图像和512个隐藏维度,步幅为{1,2,4,8,16}像素。矢量化特征V通过交叉注意力模块与形状为B×512×16×16的光栅化图像特征C5融合,得到相同形状的F5。cross-attention的queryitem是图像特征C5,被展平成B×512×256的形状,有256个token,Key和Value项是向量化的特征V,有N个token。然后通过两个3×3的卷积层将F5和C5在通道维度上进行级联,得到形状为B×512×16×16的P5。P5通过FPN-style2×2上采样模块进行上采样并连接到C4(B×512×32x32)生成与C4形状相同的U4。然后在V和U4之间进行另一轮融合,遵循相同的过程,包括交叉注意,得到P4(B×512×32×32)。最后,P4通过FPN风格的网络逐渐上采样并与{C3,C2,C1}连接生成形状为B×512×256×256的EP1。将P1通过两个3×3的卷积层得到最终的输出特征,形状为B×128×256。解码器是单个2D卷积层,输入通道大小为128,输出通道大小为32(8个航路点×4个输出维度)。结果如下:

猜你喜欢