这项由塞浦路斯大学KIOS研究与创新卓越中心主导的研究,以预印本形式于2026年5月15日发布在arXiv平台,编号为arXiv:2605.15779v1,研究方向归属于机器人与计算机视觉交叉领域。有兴趣深入阅读的读者可通过上述编号在arXiv网站直接检索原文。
**一条高速公路,三架无人机,一个让人头疼的问题**
设想一下这样的场景:交通管理部门派出三架无人机沿着一条500米长的城市路段巡逻,每架无人机各自"盯着"自己那段路,实时记录路上每辆车的运动轨迹。当一辆白色轿车从第一架无人机的视野中驶出,进入第二架的镜头时,问题来了——第二架无人机根本不知道这辆车"是谁",它只能给这辆车重新编一个号码,就像一位健忘的接待员,明明已经服务过这位客人,却在他下楼又上楼时把他当成了完全陌生的新访客。
这个看似普通的麻烦,实际上严重妨碍了交通系统的智能化分析。城市交通管理者真正想知道的,是一辆车从A点到B点花了多少时间、走了哪条路、有没有频繁变道——这些信息需要把多架无人机的碎片化记录拼成一条完整的旅程档案。如果每架无人机各自为政,这些宏观分析就无从实现,更别提估算城市级别的出行起终点分布了。
现有的解决方案通常依赖"外貌识别"——让计算机提取每辆车的视觉特征,比如颜色、车型、车牌,然后在不同摄像头之间比对,找到同一辆车。这在地面摄像头拍摄的场景下还算管用,但无人机从高空垂直俯拍时,镜头里的汽车几乎只能看到车顶,所有白色轿车的车顶长得一模一样,所有黑色SUV也难以区分。加上阴影、云遮、光线变化,同一辆车在不同时刻的"外貌"可能差异极大,这让依赖外观的识别方法屡屡翻车。更糟糕的是,提取这些视觉特征需要大量计算,在无人机自带的小型计算芯片上根本跑不动。
塞浦路斯大学的研究团队换了一个完全不同的思路:既然道路上的车辆必须沿着固定方向、按照物理规律流动,为什么不利用这种"必然性"来做身份传递,而非依赖那些靠不住的外观特征?这个转变,催生了他们提出的"拓扑感知时空交接框架"。
**一、问题的根源:每架无人机都是"信息孤岛"**
要理解这项研究解决的核心矛盾,需要先搞清楚为什么无人机在追踪车辆时必然面临这种"身份断档"困境。
商用四旋翼无人机飞得越高,地面上的细节就越小,越难分辨车辆。为了保证足够的图像分辨率,无人机必须保持相对较低的飞行高度,但这样一来,每架无人机能覆盖的地面面积就相当有限。要监测一段有实际意义的城市道路,就必须让多架无人机沿线排布,各自负责一小段区域。在标准的系统设计中,每架无人机独立工作,各自给自己视野里的车辆编号——第一架无人机把经过的车辆标记为1号、2号、3号,第二架无人机又重新从1号开始标记,两套编号体系完全独立,互不相通。
从单架无人机的角度看,这套系统运行得相当不错。研究团队引用了ByteTrack这种先进的多目标追踪算法,它能在单架无人机的视野范围内持续跟踪每辆车,即使车辆短暂被遮挡、或者置信度较低时,它也会尽量保持追踪的连续性,不轻易"丢失"目标。但这种局部的完美,并不能解决跨无人机的身份一致性问题。
研究团队将这个问题在数学上进行了清晰的定义。他们把整个无人机网络看作一张有方向的关系图:每架无人机是图上的一个节点,相邻无人机的拍摄区域存在空间重叠时,就在两个节点之间连一条边。在这个重叠区域里,同一辆车理论上会同时出现在两架无人机的画面中,这为身份传递创造了可能。真正的挑战在于,如何精确、实时、低成本地完成这个"接棒"动作。
**二、核心突破:用"排队规则"替代"认脸游戏"**
研究团队提出的解决方案,本质上是把多架无人机的协同工作机制,从一场"认脸游戏"改造成一套严格的"排队接力"制度。
回到文章开头的接待员比喻。传统的外貌识别方法,相当于要求接待员凭记忆认出每一位访客的脸——当所有访客都穿着相似的白色制服时,这个方法显然会频繁出错。而研究团队的新方法,则相当于给大楼安装了一套严格的进出登记系统:每位访客离开某一楼层时,系统会记录他离开的时间和所在的位置(靠近哪一侧);当下一楼层的接待员接到一位新访客时,系统会查阅上楼层的离开记录,根据时间是否吻合、位置是否对应来判断这位新访客就是刚才那位。整套流程完全不需要辨认脸部特征,只依赖时间和空间坐标。
具体实现上,这套机制分为几个环环相扣的步骤。
首先是"地盘划分"。研究团队为每对相邻无人机的重叠区域,精心标定了一个不规则多边形,这个多边形严格沿着道路边界裁剪,考虑了无人机的朝向和摄像头的透视变形,远比简单的矩形框更精确。只有当车辆的中心点进入这个多边形区域时,才会触发身份交接流程。
其次是"方向分流"。道路上行驶的车辆分为两个方向,研究团队用道路中心线把整条路分成上下两半,向东行驶的车辆和向西行驶的车辆各有自己独立的"队列"。这个简单的分流,立刻解决了一个常见错误:一辆向西行驶的车,绝对不可能被误认为是向东行驶的车——哪怕它们的外观完全一样。
最关键的步骤是"横向位置匹配"。在同一方向的队列中,可能同时有多辆车并排通过重叠区域,比如两辆车并肩行驶,或者一辆车正在超越另一辆。传统的"先进先出"队列在这种情况下会出错——它只记得谁先进来,却不知道谁在左道、谁在右道。研究团队的改进在于,每辆车离开某架无人机视野时,不仅记录离开时间,还记录它在道路横向位置上的相对坐标(归一化为0到1之间的数值,代表从左车道到右车道的位置)。当下游无人机检测到新车辆时,系统会在一个时间窗口内搜索上游记录,找到横向位置最接近的那一条记录,认定为同一辆车。
这个时间窗口的设计也颇具巧思。如果两架无人机的重叠区域恰好完美校准,车辆在前一架无人机"消失"和在后一架无人机"出现"之间的时间差应该接近零。但实际中,无人机可能因为风力略微偏移,导致重叠区域的标定不完全准确,或者两架无人机的视频流存在几帧的延迟差。允许一定的时间窗口容忍度,让系统能"容错"地完成接棒,即便在有盲区的情况下也能成功。而一旦横向位置差超过阈值,系统就会判定这不是一次正常的身份交接,而是一辆从旁路新驶入的车辆,给它分配全新的全局编号。
为了防止"记录过期"导致乱配对,每条等待接棒的记录都设有一个生存时间上限,超时自动作废,避免一辆早就离开的车的记录影响后来进来的车辆识别。
**三、技术底层:让每架无人机"看得清楚、跑得飞快"**
这套接力机制能够运作,前提是每架无人机在自己的视野范围内必须做好本职工作——准确检测并稳定追踪每一辆车。研究团队在这个环节上的选择,同样体现了对工程实践的细致考量。
在目标检测方面,他们选用了YOLO11这款检测框架,这是当前最新一代的实时目标检测模型,集成了跨阶段局部空间注意力机制,对图像中的小目标有较好的特征保留能力。在高空俯拍的无人机图像中,一辆小轿车可能只占画面的极小一块,普通的检测模型很容易把这么小的目标漏掉。YOLO11的推理分辨率被设置为1280像素,同时将检测置信度阈值放低到0.25,意图是宁可接受一些误报,也不漏掉任何可能的车辆。
模型在VisDrone2019这个航拍视觉数据集上进行了300轮专门训练,最终在验证集上达到了41.6%的mAP@0.5精度——这个数字在航拍检测任务上属于较有竞争力的水平,因为航拍场景本身就比地面场景难得多。
在单机内部的车辆追踪上,研究团队采用了ByteTrack算法。与传统的卡尔曼滤波追踪不同,ByteTrack有一个独特设计:它不会简单地丢弃置信度低的检测框,而是把这些"可疑目标"保留下来参与第二轮匹配。这对无人机场景特别重要,因为车辆驶过阴影区或被树木短暂遮挡时,检测置信度会短暂下降,如果直接丢弃,追踪轨迹就会中断;ByteTrack的两段式匹配逻辑能更好地维持轨迹连续性,保证车辆抵达重叠区域时仍有一条完整的局部轨迹可供后续处理。
在速度与朝向的计算上,研究团队设计了一个基于地面采样距离(GSD)的转换系数,把像素坐标位移换算为实际的米制速度,再除以滑动窗口内的帧数,得到经过平滑处理的瞬时速度,单位换算为公里每小时。这个速度信息除了本身有监测价值外,还作为方向判断的辅助依据——行进方向与道路中心线的关系,配合速度,帮助系统更可靠地把车辆分配到正确的方向队列里。
**四、系统架构:两层设计保障实时性与一致性**
在软件工程层面,研究团队面临一个经典的并行系统设计难题:多架无人机同时工作,如何保证速度,又如何避免时序错乱?
他们的解决方案是把整个系统分成两个独立运行的层次。下层是"异步感知层"——每架无人机的本地感知模块完全独立、并行运行,互不干扰。在这一层里,计算量最大的目标检测任务可以充分利用多核并行计算,整体计算量随无人机数量线性增长,而不是指数级膨胀,避免了系统性能随规模扩大而崩溃的问题。
上层是"同步全局处理层"——这一层设置了一个全局同步屏障,等待所有无人机的本地追踪结果都到达同一时间戳后,才统一执行身份交接逻辑。这个设计防止了一个现实中很容易发生的问题:由于网络延迟或处理速度差异,某架无人机的数据可能比另一架早到几帧,如果不做同步,就可能出现"某辆车在下游无人机那里已经出现,但上游记录还没传来"的时序错乱,导致错误匹配。同步屏障确保每次执行接力逻辑时,所用的数据快照在逻辑上是同一时刻的全网状态。
这种分层设计的优雅之处在于,计算密集的视觉推理工作完全在本地分散完成,轻量的身份接力逻辑则在一个经过同步的全局视角下运行,两者互不干扰,各司其职。
**五、实验:真实城市道路上的压力测试**
研究团队专门收集了一套定制的多无人机数据集,而非简单沿用现有标准测试集。现有的多摄像头追踪数据集大多来自地面固定摄像头或斜角拍摄,完全不具备航拍俯视的独特挑战——那种"只能看见车顶"的视觉歧义性,是航拍场景特有的困难,需要专门针对它进行测试。
测试地点选在塞浦路斯首都尼科西亚的Aglantzia区域,一段约500米的城市道路,由三架DJI Mavic 2 Enterprise无人机同步拍摄4K视频。这段路的选取颇有讲究:在第二架和第三架无人机之间的路段,存在一个通往某大学校园的复杂十字路口,不仅有主干道的直行车流,还有从侧路汇入或驶出的车辆。这种"汇入与分流"场景对身份追踪系统的鲁棒性是相当苛刻的考验,因为从侧路新驶入的车辆不应该被错误地认定为是从上游无人机传递过来的车辆。
为了全面评估系统在不同交通状况下的表现,研究团队将测试数据分为三组。第一组是自由流状态,道路密度低、车速高,主要考验系统在高速运动下的追踪连续性。第二组是拥堵状态,车辆密集、走走停停,主要考验长时间等待是否会导致队列记录超时失效。第三组是超车状态,涉及频繁变道和并行驶过重叠区域,专门考验横向位置匹配的正确率。
所有测试片段都以10帧每秒的间隔,由人工使用CVAT标注工具逐帧核对真实身份,作为评估的金标准。
在与同类方法的横向对比中,数字说明了一切。系统的核心指标"交接成功率"达到了99.8%,同时IDF1全局身份稳定性评分为96.5%,处理速度在服务器端达到62.1帧每秒。相比之下,使用ResNet50骨干网络的重量级外观识别方案FastReID,交接成功率只有74.1%,而且在服务器端只能跑到8.4帧每秒,远不满足实时要求。基于CNN嵌入的DeepSORT方法交接成功率为68.3%,速度22.8帧每秒。而完全不考虑跨无人机接力、仅做本地运动追踪的ByteTrack基线方法,交接成功率只有12.4%——这个数字生动说明了如果什么都不做,跨摄像头的身份一致性有多么糟糕。
在三种流量状态的分项测试中,自由流状态下系统的交接成功率高达99.8%,处理延迟仅14.2毫秒。即便人为制造高达15到20米的重叠区域校准误差(约占重叠区长度的30%),系统仍能保持98%以上的成功率,说明它对标定误差有相当强的容错能力。超车状态下交接成功率98.6%,研究团队还做了一个针对性的消融实验:把横向位置匹配功能关闭,退回到纯"先进先出"队列模式,超车状态下的交接成功率立刻跌至74.5%,直接证明了横向位置信息在并行车辆场景中的不可缺少性。
表现相对弱一些的是拥堵状态,交接成功率92.4%,延迟稍高至18.5毫秒。研究团队分析,这个场景下的失败案例主要来自车辆长时间停在重叠区附近,超过了静态设定的记录生存时间,导致部分记录被提前清除,后续车辆进入时找不到匹配记录而被当成新车辆处理。这也直接指向了未来改进方向:应当让生存时间随实时流量状态动态调整,在拥堵时自动延长。
**六、边缘部署:无人机上的"随身处理器"够用吗**
一项研究再精妙,如果无法在实际无人机上运行,也只是停留在论文里。研究团队特别在NVIDIA Jetson Orin NX这款嵌入式计算模块上进行了实际部署测试。这款设备是工业级无人机常用的机载计算平台,内存16GB,功耗在15W到40W之间可调。
在15瓦省电模式下,YOLO11s模型能以25.6帧每秒处理单路4K视频流,每帧的能耗约为0.58焦耳。研究团队还对比了同系列的其他模型:更小的YOLO11n虽然能跑到43帧每秒,但它对小目标的检测精度(mAP 37.6%)明显低于YOLO11s(41.6%),这个精度差距会导致车辆在重叠区域被漏检,让接力逻辑失去触发条件;而更大的YOLO11m虽然精度略有提升,但处理速度跌破实时要求,也不适合。YOLO11s因此成为这个硬件平台上兼顾速度与精度的最佳选择。
25.6帧每秒代表的是单台机载计算单元处理单路视频流的吞吐能力。在完全分布式的无人机编队中,每架无人机配备自己的机载处理单元,各自独立完成本地感知,不需要把原始4K视频实时回传到地面站——这大幅降低了对无线传输带宽的要求,也消除了数据集中处理时的延迟瓶颈。研究团队认为,这个测试结果证实了系统在真实无人机编队上部署的工程可行性。
**七、局限与未来:诚实面对仍未解决的问题**
研究团队对系统的局限性保持了诚实的态度,并给出了明确的改进路线。
当前的速度计算方案假设无人机始终垂直俯拍,地面采样距离均匀一致。但实际飞行中,无人机可能因风力略微倾斜,导致镜头存在俯仰角,使得不同位置的像素对应不同的实际距离,产生速度测量误差。未来版本需要引入单应性变换校准(一种数学工具,能把倾斜镜头的图像重新映射到标准俯视平面)来处理这种情况。
在超出时间窗口容忍范围的极端情况下,当前的确定性接力逻辑会彻底失效,系统只能给车辆分配新编号。研究团队计划引入概率多模态融合方法,在这些边缘情况下提供额外的补救手段,而不是完全放弃身份延续。
重叠区域的标定目前需要人工在地图上手动绘制多边形,这限制了系统的快速部署能力。未来计划用图像拼接算法自动检测相邻无人机视野的重叠部分,实现"即插即用"的快速部署。
最具想象力的未来方向,是把身份交接从依赖地面基站中转,改为无人机之间直接点对点通信。两架相邻无人机通过机间无线链路直接传递身份记录,完全不需要地面站参与,形成真正自主运作的空中传感器网络。
归根结底,这项研究传递的核心信息其实很朴实:在某些特定场景下,充分利用物理世界的规律和约束,往往比穷举所有视觉特征更为可靠。道路是单向的,车辆是按顺序通过的,相邻车道的车不会突然横跳到对向车道——这些"常识"一旦被编码进系统逻辑,就足以在不认识任何一辆车的情况下,准确地知道"这辆车就是之前那辆"。当外观识别在高空俯视的视觉歧义中举步维艰时,利用交通流的物理规律实现近乎完美的身份追踪,为城市交通智能化管理提供了一条切实可行的新路径。
对这一领域感兴趣的读者,可以通过arXiv编号2605.15779查阅完整的原始论文,或访问论文中公开的代码仓库,在自己的设备上复现实验。
Q&A
Q1:多无人机车辆追踪系统的交接成功率为何能达到99.8%,而外观识别只有74%?
A:核心原因在于,从无人机高空俯拍时,几乎所有同款车辆的车顶外观一模一样,外观识别方法因此频繁混淆。而塞浦路斯大学的方案完全不依赖外观,而是利用车辆离开某架无人机时记录的时间戳和横向位置,在下一架无人机的视野中寻找时间吻合、位置接近的目标来配对,这种基于物理规律的确定性匹配在连续交通流中几乎不会出错。
Q2:拓扑感知时空交接框架在拥堵路况下表现为何会下降到92.4%?
A:在拥堵状态下,车辆可能长时间停在两架无人机的重叠区域附近,等待时间超过系统预设的记录生存时间上限后,该车辆的身份等待记录会被自动清除。当该车辆最终进入下一架无人机视野时,找不到匹配的历史记录,系统就会将其当作新车辆分配新编号,导致身份断档。研究团队指出,未来需要根据实时交通流速度动态调整这个超时阈值来解决这一问题。
Q3:Jetson Orin NX上25.6帧每秒够用于真实无人机部署吗?
A:对于单架无人机处理自己的一路4K视频流,25.6帧每秒已经达到实时处理要求。更重要的是,整个框架采用分布式设计,每架无人机只需要处理自己的那一路视频,不需要集中处理所有路视频,因此无论编队中有多少架无人机,单台机载计算单元的负担都不会增加,系统可以线性扩展。