新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!

   自动化那些事        

多目标跟踪(MOT)是出了名的难以评估。以前的度量过分强调了检测或关联的重要性。为了解决这个问题,研究者提出了一个新的MOT评估指标,更高阶跟踪精度(HOTA),它明确地将执行精确检测、关联和定位的效果平衡为一个单一的统一指标,用于比较跟踪器。


HOTA分解为一系列子度量,这些子度量能够分别评估五种基本错误类型中的每一种,从而能够清晰地分析跟踪性能。研究者评估了HOTA在MOTChallenge基准测试中的有效性,并表明它能够捕获MOT性能的重要方面,而这些方面之前没有被公认的指标考虑在内。此外,研究者显示HOTA评分更好地与人类对跟踪性能的视觉评估相一致。本文以“HOTA: A Higher Order Metric for Evaluating Multi-object Tracking”为题于2020年10月8日发布于《International Journal of Computer Vision》杂志上。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


研究背景


多目标跟踪是检测视频中存在的多个目标,并根据目标的身份将检测到的目标随着时间的推移进行关联。MOT任务是计算机视觉研究的关键支柱之一,对于监视、机器人或自动驾驶汽车等许多场景理解任务都是必不可少的。


不幸的是,MOT算法的评估被证明是非常困难的。MOT是一项复杂的任务,需要精确的检测、定位和长时间的关联。


该研究定义了一个度量,称为HOTA(更高阶跟踪精度),它能够评估跟踪的所有这些方面。研究者提供了关于为什么HOTA在评价MOT算法时通常比当前的替代方案更可取的扩展分析。从图中可以看出,目前使用的指标MOTA和IDF1分别过度强调检测和关联。


HOTA明确地测量了这两种类型的错误,并以一种平衡的方式将它们结合起来。HOTA还包含了测量追踪结果的定位精度,这在MOTA或IDF1中都没有。


HOTA可以作为一个单一的统一度量标准来对跟踪器进行排名,同时也可以分解为一系列子度量标准,这些子度量标准能够分别评估跟踪的不同方面。这使研究者能够清楚地了解跟踪器所犯的不同类型的错误,并使跟踪器能够针对不同的需求进行调整。


霍塔度量标准也很容易理解。这在图中可以清楚地看到。检测精度,DetA,仅仅是检测校准的百分比。关联精度(AssA)只是匹配轨迹之间的平均对准,即所有探测的平均对准。最终的HOTA得分是这两个得分在不同的本地化阈值上的平均值的几何平均值。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为一个简单的跟踪示例


该研究的主要贡献是提出了一种新的多目标跟踪性能评价指标。研究者将这一评价指标称为Hota(高阶跟踪精度)。


一组评估指标有两个主要目的。第一个目的是实现方法之间的简单比较,以确定哪些方法的性能优于其他方法。为此目的,重要的是要有一个单一的度量来对方法进行排序和比较,为此,研究者提出了Hota度量。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为hota分解成独立的子度量


在Hota(和Mota)中,关联的概念是为每一个检测度量的。Hota的关联评分和Mota中IDSWs的数量试图回答这样一个问题:“这种检测在一段时间内有多大关系?”在Mota中,IDSW只测量过一次这种联系--回到过去。例如,与先前的检测相比,该检测是否具有正确的关联。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为一个简单的跟踪示例


上图说明了为什么Hota的Jaccard公式比F1、MODA等其他公式更可取,以及将FNS和FPs排除在关联评分之外的公式(见文本)。为了跟踪所有帧(粗体线)中存在的单个目标,给出了两个跟踪结果:A和B(细线)。图的x轴是连(Traj 1)/len(GT)的比值.A的跟踪结果应该总是比B有一个更高的分数,因为度量在检测上是单调的,超过了连(Traj 1)/len(GT)的所有可能的比率,如果预测和地面真相被交换的话。这只对基于Jaccard的Hota有效。请注意,Moda公式是不对称的,因此交换地面真相和轨道时的结果显示为虚线,并加上星号。其他配方是对称的。


展示了一个简单的跟踪例子,旨在显示不同公式的单调性。Hota评分使用三种不同的检测和关联评分公式进行评估。如果评价测度是单调的,则(A)中的跟踪结果应该总是高于(B),因为(A)包含了更多正确的检测。这也应该是正确的,当交换哪一套是基础-真理,哪是预测。从这三个公式中可以看出,Jaccard是唯一一个显示出这种单调性质的公式。当标记(1)的轨道足够长时,F1公式分数B更高。Moda公式是不对称的.在没有TPS和TPA的情况下,它的作用和Jaccard一样,但是当地面-真相和预测被转换时,它表现出非常不受欢迎的行为。单调性和对称性都使得Jaccard公式优于其它两种形式。


在召回和精确性方面,这是不对称的。得分随查全率的增加呈线性增加,双曲性随查全率的提高而增加。这种关系可以在图中直观地看到。


对于不同的跟踪应用程序,召回与精度的重要性不同。对于诸如监视之类的应用,召回往往比精确性重要得多,因此,Mota所灌输的偏见尤其有害。理想情况下,为评估一系列应用程序的跟踪器而设计的基准可以均衡地衡量精确性和召回率。Hota通过使用对称Jaccard公式来解决这个问题,从而确保了精确性和召回率的均匀加权。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为一个跟踪示例,它显示了IDF 1执行的单个最佳轨迹匹配如何导致轨迹之间不直观的匹配


可以看出,在非匹配区域有许多正确的检测结果。这些正确的检测不会对最终得分产生积极的影响。事实上,每一个正确的检测都会降低IDF 1的最终得分。因此IDF 1的检测是非单调的。

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为针对MOT 17上的跟踪器的检测得分和关联得分,绘制出三个主要指标中的每一个

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为用于用户实验和跟踪可视化的用户界面示例

新的方法用来对多目标进行跟踪,结果竟然能做到跟人的视觉一致!


图为研究者的用户研究结果


这些结果表明,Hota比以往的度量更好地符合人类对跟踪结果的准确性的判断。MOT研究人员更加一致地认同Hota这一事实,这一事实有力地表明,Hota能够以一种与多目标跟踪社区相关的方式成功地评估跟踪器。


对人类来说,评估追踪器是一项困难的任务,通常有许多物体存在,而且场景极其复杂。“正确”的答案通常并不明显(如用户平均每对超过2分钟所示)。然而,这一领域的研究人员在处理这些数据方面有经验,并且知道在良好的跟踪结果中应该寻找什么。因此,Hota非常赞同MOT研究人员的判断,这一事实有力地表明了Hota度量的有用性。


研究结论


该研究引入了一种新的多目标跟踪评价指标——高阶跟踪精度(HOTA)。以前使用的度量标准只捕获对跟踪重要的部分。MOTA无法准确捕捉关联。另一方面,IDF1和Track-mAP在检测方面的表现并不直观。HOTA用一个简单、优雅的公式解决了这些问题,它同样重视检测和关联的准确性。


研究者从分析和实验的角度论证了为什么研究者提出的指标比其他指标更好,并使用最先进的跟踪器在MOTChallenge基准测试HOTA。此外,研究者进行了大规模的用户研究,并证明与MOTA和IDF1相比,人类对跟踪精度的视觉评估与HOTA更一致。


研究者相信HOTA将改变跟踪研究的本质,为新算法的设计和基准测试奠定基础,新算法将同时衡量检测和关联质量。


参考文献:Jonathon Luiten, Aljos̆a Os̆ep, Patrick Dendorfer, Philip Torr, Andreas Geiger, Laura Leal-Taixé & Bastian Leibe HOTA: A Higher Order Metric for Evaluating Multi-object Tracking  International Journal of Computer Vision (2020)


最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐