侧边栏壁纸
博主头像
人工智能知识分享博主等级

行动起来,活在当下

  • 累计撰写 60 篇文章
  • 累计创建 21 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

带摄像头的毫米波无人机:计算机视觉辅助无线波束预测

灏天
2024-05-08 / 0 评论 / 0 点赞 / 3 阅读 / 7469 字 / 正在检测是否收录...

摘要:毫米波 (mmWave) 和太赫兹 (THz) 无人机有潜力实现多种未来应用,例如覆盖范围扩展、增强安全监控和灾难管理。然而,这些无人机需要部署大型天线阵列并使用窄定向波束来维持足够的链路预算。与这些阵列相关的大波束训练开销使得调整这些窄波束对于高度移动的无人机来说具有挑战性。为了应对这些挑战,本文提出了一种基于视觉辅助机器学习的方法,该方法利用从无人机上安装的摄像头收集的视觉数据来实现快速准确的光束预测。此外,为了便于评估所提出的解决方案,我们构建了由共存的无线和视觉数据组成的合成无人机通信数据集。所提出的视觉辅助解决方案实现了约 91% 的top1光束预测精度和接近 100% 的top3精 度。这些结果凸显了所提出的解决方案在实现高度移动毫米波/太赫兹无人机通信方面的有效性。

索引术语

毫米波、太赫兹、无人机、波束预测、深度学习、计算机视觉。

简介

无人机(和无人驾驶飞行器(UAV))[1]预计将在实现未来应用方面发挥关键作用,例如扩展毫米波/太赫兹无线网络的覆盖范围、支持延迟关键型应用以及启用安全监控系统。为了满足这些新颖应用的高数据速率要求,无人机预计将配备毫米波/太赫兹收发器[2]。这主要是由于毫米波/太赫兹通信系统提供的大带宽。然而,这些系统需要部署大型天线阵列并使用窄行定向波束来保证足够的接收信噪比。在这些具有大型天线阵列的高频系统中选择最佳波束通常与较大的波束训练开销相关。这种高波束训练开销使得这些系统难以频繁计算准确的波束,从而为支持高度移动的无人机带来了挑战。这促使人们寻找新的方法来克服挑战并实现高度移动的毫米波/太赫兹无人机通信。近年来,开发克服毫米波/太赫兹系统中波束训练开销挑战的解决方案引起了人们的极大兴趣[3] – [11]。最初的方法侧重于以下方面:(i)使用自适应波束码本进行波束训练[3]和(ii)利用信道稀疏性进行压缩信道估计[4]。 [3] 中提出了穷举或自适应波束训练,以获得发射器和接收器处的最佳波束。在[4]中,作者建议利用毫米波信道固有的稀疏性,并将毫米波信道估计公式化为稀疏重建问题。虽然这些经典方法可以帮助减少波束训练开销,但它们通常只能节省一个数量级的训练开销,这不足以支持高度移动的多用户场景。这进一步推动了基于机器学习的解决方案的开发,这些解决方案可以利用先前的观察结果和附加传感数据,例如用户位置 [5]、[6]、相机/视觉图像 [7]、[8]、LiDAR 点云数据 [ 9]、radar 数据 [10]、[11] 等等。然而,这些解决方案基于以人、车辆或机器人作为用户设备(UE)的场景,其中UE的运动通常限制在二维范围内并且相对容易预测。无人机的运动,特别是高机动性以及多个可能的方向,对精确的光束预测提出了独特的挑战。这进一步激发了对无人机/无人机波束管理这一特定问题的多项研究[12]、[13]。这些解决方案建议利用用户侧(无人机)信息,例如基站和无人机之间的位置、角度等,来开发解决方案来克服这些挑战并准确预测当前和未来的波束。位置辅助解决方案虽然很有前景,但可能无法扩展到具有固有非理想性的现实场景。例如,由于与位置(GPS)数 据相关的固有误差,仅依赖位置可能会导致预测不准确。本文提出了一种基于深度学习的视觉辅助解决方案,以减少毫米波/太赫兹无人机通信中的波束训练开销。这项工作的主要贡献可概括如下:• 考虑实际的视觉和通信模型,制定毫米波/太赫兹无人机通信的视觉辅助波束预测问题。• 使用安装在无人机上的摄像头捕获的视觉数据,开发基于深度学习的毫米波/太赫兹无人机波束预测解决方案。• 开发新的毫米波/太赫兹无人机波束预测解决方案。基于公开可用的 ViWi[14] 框架的视觉辅助无人机波束预测数据集。 ViWi-Drone 数据集由共存的多模态视觉和无线数据组成。所提出的视觉辅助解决方案在 ViWi-Drone 数据集上实现了超过 90% 的 top-1 光束预测精度。这凸显了使用视觉图像等附加感官数据在减少光束训练开销方面的潜力。

图1. 框图显示了针对视觉辅助光束预测任务提出的解决方案。如图所示,配备摄像头的毫米波无人机捕获无线环境的实时图像。然后利用 CNN 来预测最佳光束指数。

系统模型

这项工作考虑了部署在现实市中心位置的通信系统, 其中毫米波基站为飞行的无人机提供服务。本节介绍本工作中采用的系统模型。本文采用配备M单元均匀线性阵列(ULA)的基站为毫米波无人机服务的系统模型。无人机携带单天线毫米波接收器,并配备三个 RGB 摄像头来捕获无线环境。通信系统采用具有 K 个子载波和长度为 D 的循环前缀的 OFDM 传输。假设基站采用预定义的波束成形码本 F = {fq},其中fq ∈ C,Q 是波束形成向量的总数。设 hk[t] ∈ C表示第 k 个子载波和时间 t 处基站和无人机之间的下行链路信道。无人机接收到的信号可以表示为

其中 f ∈ F 是时间 t 时的最佳波束形成向量,vk [t] 是从复高斯分布 NC (0, σ2) 中提取的噪声样本。传输的复数符号 x ∈ C 需要满足以下约束 E |x| 2 = P ,其中P是平均符号功率。选择每个时间步 t 的波束成形向量 f [t] ∈ F 以使平均接收 SNR 最大化,并定义为

其中SNR是发射信噪比。

问题表述

给定第二节中的系统模型,波束预测任务可以定义为 从码本 F 中选择最佳波束成形向量 f ,以使接收 SNR 最大化。计算毫米波/太赫兹通信系统中的最佳波束需要明确的信道知识 hk(如(2)中所示)。 然而,通常很难获取这些系统的信道信息。另一种选择但是,考虑到毫米波/太赫兹系统需要采用大型天线阵列并使用窄定向波束,穷举搜索方法会带来较大的波束训练开销。所有这些使得毫米波/太赫兹系统支持高度移动的无人机面临挑战。无人机通常配备一系列传感器,如高分辨率摄像头、IMU、GPS 接收器等。在本文中,我们建议利用无人机收集的视觉数据来预测最佳波束指数。形式上,我们定义 X[t] ε R W×H×C 为对应的 RGB 图像,由安装在无人机上的摄像头在时间 t 拍摄,其中 W 、H 和 C 分别是图像的宽度、高度和颜色通道数。该光束预测任务的目标是找到一个预测/映射函数 f θ,它利用毫米波无人机捕获的视觉数据来预测(估计)最佳光束指数 f [t] ∈ F 。映射函数可以正式表示为

在这项工作中,我们开发了一个机器学习模型来学习这个预测函数 f θ 。令 D = {(X u , f∗u )}u=ˡ 表示由图像光束对组成的可用数据集,其中 U 是数据集中的样本总数。预测函数中的集合 θ 表示模型参数,是从标记数据样本的数据集 D 中学习的。 然后,目标是最大化 D 中所有样本的正确预测数量。这可以正式写为

其中(4)中的乘积是由于隐含的假设,即数据集 D 中的样本是从独立且相同的分布中抽取的。 下一节介绍了所提出的用于视觉辅助毫米波/太赫兹无人机波束预测的机器学习模型。

提议的相机辅助解决方案

这项工作建议利用毫米波无人机捕获的视觉数据来预测下行链路(从基站到无人机)最佳波束指数。

A. 关键思想

毫米波/太赫兹通信系统存在严重的路径损耗,这使得基站和用户之间的视距 (LOS) 通信成为一种更可取的设置。这种对 LOS 通信的依赖与摄像机基本相似,摄像机也主要捕获可见光或LOS对象。此外,这些系统采用大型天线阵列并使用窄定向波束来保证足够的接收信噪比。在这些系统中选择最佳波束通常与大量波束训练开销相关,这使得支持高度移动的用户变得具有挑战性。引导波束可以被视为将信号聚焦在空间中的特定方向。光束矢量将场景(空间维度)划分为多个(可能重叠)扇区,其中每个扇区与特定的光束值相关联。因此,给定预定义的码本,波束预测任务可以转换为分类任务,即根据用户在视觉场景中的位置,可以分配码本中的波束索引。所有这些都促使人们在毫米波无人机中使用视觉数据进行波束预测。此外,机器学习和计算机视觉的最新进展实现了多种新颖的功能,例如对象检测、图像分割和对象识别跟踪,仅举几例。这些功能能够检测不同的感兴趣对象并提取用户在视觉场景中的相对位置。在本文中, 我们没有进行传统的波束训练,而是利用安装在毫米波无人机上的相机捕获的视觉数据来计算最佳波束指数。

B. 机器学习模型

如第三节所述,目标是使用毫米波无人机捕获的 RGB 图像来学习类别预测函数 f θ (X)。所提出的视觉辅助解决方案利用最先进的卷积神经网络(CNN)来预测最佳光束。为了实现毫米波通信的高可靠性和低延迟要求,所提出的解决方案中的 CNN 必须满足两个基本标准:(i) 准确的预测和 (ii) 低推理延迟。与 VGG-Net 等 DNN 网络不同,ResNet 采用带有跳跃连接的残差块,有助于以更少的参数实现图像分类任务的更高准确度。此外,与 VGG-Net 相比,ResNet 中每秒的浮点运算数 (FLOP) 显着减少。因此,所提出的解决方案利用ImageNet预训练的 ResNet 模型[15]来执行波束预测任务。为了详细比较准确率和延迟,该研究考虑了两种架构:(i) 较小的 18 层残差网络 (ResNet18) 和 (ii) 较大的 50 层残差网络 (ResNet50)。 -训练的 ResNet 模型被修改以适应我们的波束预测任务,即,最终的分类层被替换为具有 Q 个输出神经元的全连接层。实现迁移学习背后的直觉是,如果模型在足够大且通用的数据集上训练有素,它将有效地推广到其他视觉数据集。ResNet 模型在由图像光束对组成的光束预测数据集 D 上进一步微调。

C. 修剪过滤器和特征图

大容量的 DNN 具有许多冗余参数,即滤波器和神经元。单次前向传递中的矩阵乘法次数与模型的延迟直接相关。除了实现可靠的性能外,所提出的解决方案还必须满足毫米波通信系统的超低延迟要求。因此, 为了进一步DNN 中的冗余过滤器如[16]中提出的。与在网络中引入稀疏性的剪枝权重相比,过滤器剪枝是一种结构化的剪枝方式,可以减少网络的 FLOPS。目标是从训练有素的模型的每一层中修剪多余的过滤器,同时最大限度地减少推理精度损失。第一步是根据重要性得分对过滤器进行采样,衡量每个过滤器对最终损失函数的影响。 每层中过滤器的相对重要性得分计算为其绝对权重的总和,即过滤器的L1范数。绝对权重相对较小的滤波器往往会产生激活较弱的特征图。因此,根据重要性得分,r百分比的低排名过滤器将被修剪。由此产生的网络被进一步微调以恢复由于修剪而损失的准确性。

图 2 该图显示了三个摄像机在特定时间实例捕获的街道的不同区域。它还显示了分别从摄像机 2 和 3 看到的两个基站 BS1 和 BS2。

图 3 ViWi-Drone 场景的俯视图。它以繁忙的市中心街道为模型,有各种物体, 如汽车、公共汽车、卡车等。它还突出显示了该数据集中采用的无人机的轨迹。

VIWI-无人机数据集

公开可用的 ViWi [14] 框架用于开发专门用于 ViWiDrone 任务的新场景。数据集提供共存的无线和视觉数据。每个数据样本包含 RGB 图像和波束索引。它们 是通过对合成室外环境的广泛模拟生成的,该环境描绘了具有多个移动物体的市中心街道。与ViWi-BT不同的是,ViWi-Drone数据集中的用户是飞行高度为50米的无人机。该无人机配备了不同方向的三个摄像头,可以在任何给定时间捕获整条街道,并配备半波偶极接收天线。来自无人机摄像机的视觉数据的 x 轴范围为 -100 到 300。该场景还包含两个基站,位于主街道两端的街道对面,间隔 100 米。每个基站都配备了沿 z 轴定向的半波偶极子天线阵列,沿 x 轴有 128 个天线。有关数据集的更多信息可以在 [14] 中找到。 无人机轨迹:该数据集由 6, 735 个数据样本组成,对应于 17 种不同的无人机轨迹。无人机轨迹是使用相同汽车/人类模型轨迹的部分生成的,这些轨迹是为了对所使用的交通进行动画处理而创建的在室外场景中。每个轨迹仅在 x 轴和 y 轴上有所不同。 z 轴,即飞行高度,保持固定在 50 米。无人机沿 x 正方向和负 x 方向沿线性路径行进。这些路径位于街道正上方,沿 y 轴从 -5.625 到 1.875 变化。 6, 735 个数据样本,即图像和光束对,进 一步分为两个子组: (i)仅由基站1的图像和波束对组成的数据集,称为BS1场景以供进一步分析;(ii)仅对应于基站2的数据样本,并称为BS2场景。组合数据集被称为组合 BS1和 BS2场景,由来自基站 1 和 2 的样本组成。对于这三个场景中的每一个,数据集都使用 70% - 30% 的数据分割分为训练集和验证集。

结论

本文开发了一种基于深度学习的解决方案,利用视觉数据来预测毫米波/太赫兹无人机通信系统中的最佳波束指数。评估提出的解决方案,我们采用由各种无线和视觉数据组成的 ViWi-Drone 数据集。所提出的视觉辅助解决方案实现了 top1和 top3光束预测精度分别约为 91% 和 100%。我们进一步表明,通过采用最先进的网络修剪方法,所提出的解决方案可以实现 4.36ms 的近实时预测延迟,而不会显着降低预测精度。实验结果表明,利用额外的感官数据 (例如视觉数据(RGB 图像))来减少毫米波/太赫兹无人机中的波束训练开销是有希望的收益。

0

评论区