VectorFlow-Combiningimagesandvectorsfortrafficoccupancyandflowprediction

时间：2023-03-13 06:56:03 科技观察

arXiv论文《VectorFlow:CombiningImagesandVectorsforTrafficOccupancyandFlowPrediction》，2022年8月9日，清华大学工作。预测道路代理人的未来行为是自动驾驶的一项关键任务。虽然现有模型在预测代理人的未来行为方面取得了巨大成功，但有效预测多个代理人的行为仍然是一个挑战。最近，有人提出了占用流场(OFF)符号，通过占用网格和流的组合来表示道路代理的联合未来状态，从而实现联合一致的预测。这项工作提出了一种新的占用流场预测器，一种从光栅化交通图像中学习特征的图像编码器，以及一种捕获连续代理轨迹和地图状态信息的矢量编码器，它们结合起来生成准确的占用和流量预测。在生成最终预测之前，两个编码特征由多个注意力模块融合。该模型在Waymo开放数据集OccupancyandFlowPredictionChallenge中排名第三，并在occludedoccupancyandflowprediction任务中取得最佳性能。OFF表示（“OccupancyFlowFieldsforMotionForecastinginAutonomousDriving”，arXiv2203.03875,3,2022）是一个时空网格，其中每个网格单元包括i)任何代理将占据该单元的概率和ii)表示占用该单位的特工流动流。它提供了更好的效率和可扩展性，因为预测占用流场的计算复杂度与场景中道路代理的数量无关。图为OFF的框架图。编码器结构如下。第一阶段接收所有三种类型的输入点，并使用受PointPillars启发的编码器处理它们。交通灯和航路点直接放置在网格中。agent在每个输入时间步t的状态编码是从每个agent的BEV框中统一采样一个固定大小点的网格，并将这些点与相关的agent状态属性（包括在时间t的one-hot编码）放在网格。每个支柱输出它包含的所有点的嵌入。解码器结构如下。第二阶段接收每个柱嵌入作为输入，并生成每个网格单元的占用和流量预测。解码器网络基于EfficientNet，它使用EfficientNet作为骨干来处理每个pillarembedding以获得特征图(P2,...P7)，其中Pi从输入中被下采样2^i。然后将这些多尺度特征以双向方式与BiFPN网络融合。然后，所有代理类K的占用率和流量预测在所有时间步长都使用最高分辨率的特征图P2进行回归。具体来说，解码器为每个网格单元输出一个向量，同时预测占用率和流量。对于本文，做了以下问题设置：给定场景中交通代理的1秒历史和场景上下文，例如地图坐标，目标是预测i）未来观察到的占用，ii）未来遮挡占用，以及iii)场景中8个未来路点上所有车辆的未来流量，其中每个路点覆盖1秒的间隔。将输入处理为光栅化图像和一组向量。为了获得图像，在给定观察到的代理轨迹和地图数据的情况下，在相对于自动驾驶汽车(SDC)的本地坐标的每个过去时间步创建一个栅格化网格。要获得与光栅化图像一致的矢量化输入，请遵循相同的变换，相对于SDC的本地视图旋转和移动输入代理和地图坐标。编码器由两部分组成：编码光栅化表示的VGG-16模型和编码矢量化表示的VectorNe模型。矢量化特征通过交叉注意力模块与VGG-16最后两步的特征融合。通过FPN-style网络，融合后的特征被上采样到原始分辨率，用作输入光栅化特征。解码器是一个单一的2D卷积层，它将编码器输出映射到占用流场预测，它由一系列8网格图组成，表示未来8秒后每个时间步的占用和流量预测。如图：使用torchvision的标准VGG-16模型作为光栅化编码器，遵循VectorNet的实现（代码https://github.com/Tsinghua-MARS-Lab/DenseTNT）。VectorNet的输入包括i)一组形状为B×Nr×9的道路元素向量，其中B为batchsize，Nr=10000为道路元素向量的最大数量，最后一个维度9表示每个向量和向量ID两个端点的位置（x，y）和方向（cosθ，sinθ）；ii)一组形状为B×1280×9的代理向量，包括场景中多达128个代理的向量，其中每个代理有10个来自观察位置的向量。遵循VectorNet，首先在每个交通元素的ID上运行局部图，然后在所有局部特征上运行全局图，得到形状为B×128×N的向量化特征，其中N是交通元素的总数，包括道路要素和智力体。特征的大小再经MLP层进一步四倍化得到最终的向量化特征V，其形状为B×512×N，其特征大小与图像特征的通道大小一致。VGG每一阶段的输出特征表示为{C1,C2,C3,C4,C5}，相对于输入图像和512个隐藏维度，步幅为{1,2,4,8,16}像素。矢量化特征V通过交叉注意力模块与形状为B×512×16×16的光栅化图像特征C5融合，得到相同形状的F5。cross-attention的queryitem是图像特征C5，被展平成B×512×256的形状，有256个token，Key和Value项是向量化的特征V，有N个token。然后通过两个3×3的卷积层将F5和C5在通道维度上进行级联，得到形状为B×512×16×16的P5。P5通过FPN-style2×2上采样模块进行上采样并连接到C4（B×512×32x32）生成与C4形状相同的U4。然后在V和U4之间进行另一轮融合，遵循相同的过程，包括交叉注意，得到P4（B×512×32×32）。最后，P4通过FPN风格的网络逐渐上采样并与{C3,C2,C1}连接生成形状为B×512×256×256的EP1。将P1通过两个3×3的卷积层得到最终的输出特征，形状为B×128×256。解码器是单个2D卷积层，输入通道大小为128，输出通道大小为32（8个航路点×4个输出维度）。结果如下：

上一篇：Linux运维必备的13个实用工具，赶紧收藏吧！

下一篇：Node.js开发指南：Node.js基础介绍_0

VectorFlow-Combiningimagesandvectorsfortrafficoccupancyandflowprediction相关文章