塞浦路斯大学实现:无人机车队“接力跑“
这项由塞浦路斯大学KIOS研究与创新卓越中心主导的研究以预印本形式于2026年5月15日发布在arXiv平台编号为arXiv:2605.15779v1研究方向归属于机器人与计算机视觉交叉领域。有兴趣深入阅读的读者可通过上述编号在arXiv网站直接检索原文。**一条高速公路三架无人机一个让人头疼的问题**设想一下这样的场景交通管理部门派出三架无人机沿着一条500米长的城市路段巡逻每架无人机各自盯着自己那段路实时记录路上每辆车的运动轨迹。当一辆白色轿车从第一架无人机的视野中驶出进入第二架的镜头时问题来了——第二架无人机根本不知道这辆车是谁它只能给这辆车重新编一个号码就像一位健忘的接待员明明已经服务过这位客人却在他下楼又上楼时把他当成了完全陌生的新访客。这个看似普通的麻烦实际上严重妨碍了交通系统的智能化分析。城市交通管理者真正想知道的是一辆车从A点到B点花了多少时间、走了哪条路、有没有频繁变道——这些信息需要把多架无人机的碎片化记录拼成一条完整的旅程档案。如果每架无人机各自为政这些宏观分析就无从实现更别提估算城市级别的出行起终点分布了。现有的解决方案通常依赖外貌识别——让计算机提取每辆车的视觉特征比如颜色、车型、车牌然后在不同摄像头之间比对找到同一辆车。这在地面摄像头拍摄的场景下还算管用但无人机从高空垂直俯拍时镜头里的汽车几乎只能看到车顶所有白色轿车的车顶长得一模一样所有黑色SUV也难以区分。加上阴影、云遮、光线变化同一辆车在不同时刻的外貌可能差异极大这让依赖外观的识别方法屡屡翻车。更糟糕的是提取这些视觉特征需要大量计算在无人机自带的小型计算芯片上根本跑不动。塞浦路斯大学的研究团队换了一个完全不同的思路既然道路上的车辆必须沿着固定方向、按照物理规律流动为什么不利用这种必然性来做身份传递而非依赖那些靠不住的外观特征这个转变催生了他们提出的拓扑感知时空交接框架。**一、问题的根源每架无人机都是信息孤岛**要理解这项研究解决的核心矛盾需要先搞清楚为什么无人机在追踪车辆时必然面临这种身份断档困境。商用四旋翼无人机飞得越高地面上的细节就越小越难分辨车辆。为了保证足够的图像分辨率无人机必须保持相对较低的飞行高度但这样一来每架无人机能覆盖的地面面积就相当有限。要监测一段有实际意义的城市道路就必须让多架无人机沿线排布各自负责一小段区域。在标准的系统设计中每架无人机独立工作各自给自己视野里的车辆编号——第一架无人机把经过的车辆标记为1号、2号、3号第二架无人机又重新从1号开始标记两套编号体系完全独立互不相通。从单架无人机的角度看这套系统运行得相当不错。研究团队引用了ByteTrack这种先进的多目标追踪算法它能在单架无人机的视野范围内持续跟踪每辆车即使车辆短暂被遮挡、或者置信度较低时它也会尽量保持追踪的连续性不轻易丢失目标。但这种局部的完美并不能解决跨无人机的身份一致性问题。研究团队将这个问题在数学上进行了清晰的定义。他们把整个无人机网络看作一张有方向的关系图每架无人机是图上的一个节点相邻无人机的拍摄区域存在空间重叠时就在两个节点之间连一条边。在这个重叠区域里同一辆车理论上会同时出现在两架无人机的画面中这为身份传递创造了可能。真正的挑战在于如何精确、实时、低成本地完成这个接棒动作。**二、核心突破用排队规则替代认脸游戏**研究团队提出的解决方案本质上是把多架无人机的协同工作机制从一场认脸游戏改造成一套严格的排队接力制度。回到文章开头的接待员比喻。传统的外貌识别方法相当于要求接待员凭记忆认出每一位访客的脸——当所有访客都穿着相似的白色制服时这个方法显然会频繁出错。而研究团队的新方法则相当于给大楼安装了一套严格的进出登记系统每位访客离开某一楼层时系统会记录他离开的时间和所在的位置靠近哪一侧当下一楼层的接待员接到一位新访客时系统会查阅上楼层的离开记录根据时间是否吻合、位置是否对应来判断这位新访客就是刚才那位。整套流程完全不需要辨认脸部特征只依赖时间和空间坐标。具体实现上这套机制分为几个环环相扣的步骤。首先是地盘划分。研究团队为每对相邻无人机的重叠区域精心标定了一个不规则多边形这个多边形严格沿着道路边界裁剪考虑了无人机的朝向和摄像头的透视变形远比简单的矩形框更精确。只有当车辆的中心点进入这个多边形区域时才会触发身份交接流程。其次是方向分流。道路上行驶的车辆分为两个方向研究团队用道路中心线把整条路分成上下两半向东行驶的车辆和向西行驶的车辆各有自己独立的队列。这个简单的分流立刻解决了一个常见错误一辆向西行驶的车绝对不可能被误认为是向东行驶的车——哪怕它们的外观完全一样。最关键的步骤是横向位置匹配。在同一方向的队列中可能同时有多辆车并排通过重叠区域比如两辆车并肩行驶或者一辆车正在超越另一辆。传统的先进先出队列在这种情况下会出错——它只记得谁先进来却不知道谁在左道、谁在右道。研究团队的改进在于每辆车离开某架无人机视野时不仅记录离开时间还记录它在道路横向位置上的相对坐标归一化为0到1之间的数值代表从左车道到右车道的位置。当下游无人机检测到新车辆时系统会在一个时间窗口内搜索上游记录找到横向位置最接近的那一条记录认定为同一辆车。这个时间窗口的设计也颇具巧思。如果两架无人机的重叠区域恰好完美校准车辆在前一架无人机消失和在后一架无人机出现之间的时间差应该接近零。但实际中无人机可能因为风力略微偏移导致重叠区域的标定不完全准确或者两架无人机的视频流存在几帧的延迟差。允许一定的时间窗口容忍度让系统能容错地完成接棒即便在有盲区的情况下也能成功。而一旦横向位置差超过阈值系统就会判定这不是一次正常的身份交接而是一辆从旁路新驶入的车辆给它分配全新的全局编号。为了防止记录过期导致乱配对每条等待接棒的记录都设有一个生存时间上限超时自动作废避免一辆早就离开的车的记录影响后来进来的车辆识别。**三、技术底层让每架无人机看得清楚、跑得飞快**这套接力机制能够运作前提是每架无人机在自己的视野范围内必须做好本职工作——准确检测并稳定追踪每一辆车。研究团队在这个环节上的选择同样体现了对工程实践的细致考量。在目标检测方面他们选用了YOLO11这款检测框架这是当前最新一代的实时目标检测模型集成了跨阶段局部空间注意力机制对图像中的小目标有较好的特征保留能力。在高空俯拍的无人机图像中一辆小轿车可能只占画面的极小一块普通的检测模型很容易把这么小的目标漏掉。YOLO11的推理分辨率被设置为1280像素同时将检测置信度阈值放低到0.25意图是宁可接受一些误报也不漏掉任何可能的车辆。模型在VisDrone2019这个航拍视觉数据集上进行了300轮专门训练最终在验证集上达到了41.6%的mAP0.5精度——这个数字在航拍检测任务上属于较有竞争力的水平因为航拍场景本身就比地面场景难得多。在单机内部的车辆追踪上研究团队采用了ByteTrack算法。与传统的卡尔曼滤波追踪不同ByteTrack有一个独特设计它不会简单地丢弃置信度低的检测框而是把这些可疑目标保留下来参与第二轮匹配。这对无人机场景特别重要因为车辆驶过阴影区或被树木短暂遮挡时检测置信度会短暂下降如果直接丢弃追踪轨迹就会中断ByteTrack的两段式匹配逻辑能更好地维持轨迹连续性保证车辆抵达重叠区域时仍有一条完整的局部轨迹可供后续处理。在速度与朝向的计算上研究团队设计了一个基于地面采样距离GSD的转换系数把像素坐标位移换算为实际的米制速度再除以滑动窗口内的帧数得到经过平滑处理的瞬时速度单位换算为公里每小时。这个速度信息除了本身有监测价值外还作为方向判断的辅助依据——行进方向与道路中心线的关系配合速度帮助系统更可靠地把车辆分配到正确的方向队列里。**四、系统架构两层设计保障实时性与一致性**在软件工程层面研究团队面临一个经典的并行系统设计难题多架无人机同时工作如何保证速度又如何避免时序错乱他们的解决方案是把整个系统分成两个独立运行的层次。下层是异步感知层——每架无人机的本地感知模块完全独立、并行运行互不干扰。在这一层里计算量最大的目标检测任务可以充分利用多核并行计算整体计算量随无人机数量线性增长而不是指数级膨胀避免了系统性能随规模扩大而崩溃的问题。上层是同步全局处理层——这一层设置了一个全局同步屏障等待所有无人机的本地追踪结果都到达同一时间戳后才统一执行身份交接逻辑。这个设计防止了一个现实中很容易发生的问题由于网络延迟或处理速度差异某架无人机的数据可能比另一架早到几帧如果不做同步就可能出现某辆车在下游无人机那里已经出现但上游记录还没传来的时序错乱导致错误匹配。同步屏障确保每次执行接力逻辑时所用的数据快照在逻辑上是同一时刻的全网状态。这种分层设计的优雅之处在于计算密集的视觉推理工作完全在本地分散完成轻量的身份接力逻辑则在一个经过同步的全局视角下运行两者互不干扰各司其职。**五、实验真实城市道路上的压力测试**研究团队专门收集了一套定制的多无人机数据集而非简单沿用现有标准测试集。现有的多摄像头追踪数据集大多来自地面固定摄像头或斜角拍摄完全不具备航拍俯视的独特挑战——那种只能看见车顶的视觉歧义性是航拍场景特有的困难需要专门针对它进行测试。测试地点选在塞浦路斯首都尼科西亚的Aglantzia区域一段约500米的城市道路由三架DJI Mavic 2 Enterprise无人机同步拍摄4K视频。这段路的选取颇有讲究在第二架和第三架无人机之间的路段存在一个通往某大学校园的复杂十字路口不仅有主干道的直行车流还有从侧路汇入或驶出的车辆。这种汇入与分流场景对身份追踪系统的鲁棒性是相当苛刻的考验因为从侧路新驶入的车辆不应该被错误地认定为是从上游无人机传递过来的车辆。为了全面评估系统在不同交通状况下的表现研究团队将测试数据分为三组。第一组是自由流状态道路密度低、车速高主要考验系统在高速运动下的追踪连续性。第二组是拥堵状态车辆密集、走走停停主要考验长时间等待是否会导致队列记录超时失效。第三组是超车状态涉及频繁变道和并行驶过重叠区域专门考验横向位置匹配的正确率。所有测试片段都以10帧每秒的间隔由人工使用CVAT标注工具逐帧核对真实身份作为评估的金标准。在与同类方法的横向对比中数字说明了一切。系统的核心指标交接成功率达到了99.8%同时IDF1全局身份稳定性评分为96.5%处理速度在服务器端达到62.1帧每秒。相比之下使用ResNet50骨干网络的重量级外观识别方案FastReID交接成功率只有74.1%而且在服务器端只能跑到8.4帧每秒远不满足实时要求。基于CNN嵌入的DeepSORT方法交接成功率为68.3%速度22.8帧每秒。而完全不考虑跨无人机接力、仅做本地运动追踪的ByteTrack基线方法交接成功率只有12.4%——这个数字生动说明了如果什么都不做跨摄像头的身份一致性有多么糟糕。在三种流量状态的分项测试中自由流状态下系统的交接成功率高达99.8%处理延迟仅14.2毫秒。即便人为制造高达15到20米的重叠区域校准误差约占重叠区长度的30%系统仍能保持98%以上的成功率说明它对标定误差有相当强的容错能力。超车状态下交接成功率98.6%研究团队还做了一个针对性的消融实验把横向位置匹配功能关闭退回到纯先进先出队列模式超车状态下的交接成功率立刻跌至74.5%直接证明了横向位置信息在并行车辆场景中的不可缺少性。表现相对弱一些的是拥堵状态交接成功率92.4%延迟稍高至18.5毫秒。研究团队分析这个场景下的失败案例主要来自车辆长时间停在重叠区附近超过了静态设定的记录生存时间导致部分记录被提前清除后续车辆进入时找不到匹配记录而被当成新车辆处理。这也直接指向了未来改进方向应当让生存时间随实时流量状态动态调整在拥堵时自动延长。**六、边缘部署无人机上的随身处理器够用吗**一项研究再精妙如果无法在实际无人机上运行也只是停留在论文里。研究团队特别在NVIDIA Jetson Orin NX这款嵌入式计算模块上进行了实际部署测试。这款设备是工业级无人机常用的机载计算平台内存16GB功耗在15W到40W之间可调。在15瓦省电模式下YOLO11s模型能以25.6帧每秒处理单路4K视频流每帧的能耗约为0.58焦耳。研究团队还对比了同系列的其他模型更小的YOLO11n虽然能跑到43帧每秒但它对小目标的检测精度mAP 37.6%明显低于YOLO11s41.6%这个精度差距会导致车辆在重叠区域被漏检让接力逻辑失去触发条件而更大的YOLO11m虽然精度略有提升但处理速度跌破实时要求也不适合。YOLO11s因此成为这个硬件平台上兼顾速度与精度的最佳选择。25.6帧每秒代表的是单台机载计算单元处理单路视频流的吞吐能力。在完全分布式的无人机编队中每架无人机配备自己的机载处理单元各自独立完成本地感知不需要把原始4K视频实时回传到地面站——这大幅降低了对无线传输带宽的要求也消除了数据集中处理时的延迟瓶颈。研究团队认为这个测试结果证实了系统在真实无人机编队上部署的工程可行性。**七、局限与未来诚实面对仍未解决的问题**研究团队对系统的局限性保持了诚实的态度并给出了明确的改进路线。当前的速度计算方案假设无人机始终垂直俯拍地面采样距离均匀一致。但实际飞行中无人机可能因风力略微倾斜导致镜头存在俯仰角使得不同位置的像素对应不同的实际距离产生速度测量误差。未来版本需要引入单应性变换校准一种数学工具能把倾斜镜头的图像重新映射到标准俯视平面来处理这种情况。在超出时间窗口容忍范围的极端情况下当前的确定性接力逻辑会彻底失效系统只能给车辆分配新编号。研究团队计划引入概率多模态融合方法在这些边缘情况下提供额外的补救手段而不是完全放弃身份延续。重叠区域的标定目前需要人工在地图上手动绘制多边形这限制了系统的快速部署能力。未来计划用图像拼接算法自动检测相邻无人机视野的重叠部分实现即插即用的快速部署。最具想象力的未来方向是把身份交接从依赖地面基站中转改为无人机之间直接点对点通信。两架相邻无人机通过机间无线链路直接传递身份记录完全不需要地面站参与形成真正自主运作的空中传感器网络。归根结底这项研究传递的核心信息其实很朴实在某些特定场景下充分利用物理世界的规律和约束往往比穷举所有视觉特征更为可靠。道路是单向的车辆是按顺序通过的相邻车道的车不会突然横跳到对向车道——这些常识一旦被编码进系统逻辑就足以在不认识任何一辆车的情况下准确地知道这辆车就是之前那辆。当外观识别在高空俯视的视觉歧义中举步维艰时利用交通流的物理规律实现近乎完美的身份追踪为城市交通智能化管理提供了一条切实可行的新路径。对这一领域感兴趣的读者可以通过arXiv编号2605.15779查阅完整的原始论文或访问论文中公开的代码仓库在自己的设备上复现实验。---QAQ1多无人机车辆追踪系统的交接成功率为何能达到99.8%而外观识别只有74%A核心原因在于从无人机高空俯拍时几乎所有同款车辆的车顶外观一模一样外观识别方法因此频繁混淆。而塞浦路斯大学的方案完全不依赖外观而是利用车辆离开某架无人机时记录的时间戳和横向位置在下一架无人机的视野中寻找时间吻合、位置接近的目标来配对这种基于物理规律的确定性匹配在连续交通流中几乎不会出错。Q2拓扑感知时空交接框架在拥堵路况下表现为何会下降到92.4%A在拥堵状态下车辆可能长时间停在两架无人机的重叠区域附近等待时间超过系统预设的记录生存时间上限后该车辆的身份等待记录会被自动清除。当该车辆最终进入下一架无人机视野时找不到匹配的历史记录系统就会将其当作新车辆分配新编号导致身份断档。研究团队指出未来需要根据实时交通流速度动态调整这个超时阈值来解决这一问题。Q3Jetson Orin NX上25.6帧每秒够用于真实无人机部署吗A对于单架无人机处理自己的一路4K视频流25.6帧每秒已经达到实时处理要求。更重要的是整个框架采用分布式设计每架无人机只需要处理自己的那一路视频不需要集中处理所有路视频因此无论编队中有多少架无人机单台机载计算单元的负担都不会增加系统可以线性扩展。