您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页图像特征检测与匹配方法研究综述

图像特征检测与匹配方法研究综述

来源:小侦探旅游网
DOI:10.13878/j.cnki.jnuist.2020.03.001

唐灿1 唐亮贵1 刘波1

图像特征检测与匹配方法研究综述

0 引言

  自20世纪70年代以来,图像特征检测与匹配一直是图像处理最核心领域之一,是计算机视觉的基石.人眼或相机接收到的是平面的二维图像,重建三维、理解世界、掌握世界一直是这个领域不懈的追求.从20世纪对纹理、颜色的理解到21世纪对线、点、面的特征提取,研究者们使用数学工具对这一过程进行了长达几十年的研究,取得长足的进展.最近10年,由于计算机算力、海量数据的快速增长,以深度学习为首的人工智能算法在计算机图像领域取得了丰硕成果,对图像特征检测与匹配领域产生了深刻的影响.新的研究表明:图像特征检测与匹配正在全面转向深度学习,从手工选择特征子转变为从数据中学习特征.但研究也同样表明:同时利用传统、可解释的检测匹配算法理论有助于更好地解决特征检测与匹配问题,有助于领域的进步和革新.

摘要

几十年来,图像特征检测与匹配一直是图像处理的最核心领域之一,是计算机视觉的基石.没有特征检测与匹配就没有SLAM、Sfm、AR、通用图像检索、图像配准、全景图像等视觉任务.本文在回顾几十年来的经典检测算法的基础上,阐述了引用最新的以深度学习为首的机器学习算法后,在本领域取得的最新进展,包括特征点、局部特征子、全局特征子、匹配及优化、端到端框架等所有关键点,展示了算法各自的优缺点.总而言之,面对工业界的宽基线、实时、低算力检测的要求,图像特征检测和匹配仍然是一项未能完整攻克的任务,融合特征点、局部特征子、全局特征子、匹配及优化的多任务全局框架成为未来发展的趋势.关键词

图像特征检测;描述子;匹配算法;深度学习中图分类号TP13文献标志码A

1 图像特征检测与匹配基本流程

一般而言,图像特征检测与匹配的核心流程如图1所示.

收稿日期2020⁃01⁃16

资助项目重庆工商大学开放课题(KFJJ2019067);重庆市教委课题(1792079)作者简介

唐灿,男,副教授,主要研究方向为机器视觉.tangcan2003@126.com

1重庆工商大学计算机科学与信息工程学院,重庆,400067

Fig􀆰1 Flowchartforfeaturedetectionandmatching

图1 图像特征检测与匹配流程

的处理.包括灰度化、去噪声、生成图像金字塔等过程.不同的算法要求的预处理过程不一致.

2)特征点检测:提取图像中感兴趣的点,这些点被称为特征点,

1)图像预处理:在进行特征检测之前,通常需要对图像进行预先

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.262

    这是图像稀疏化的一个典型过程.我们需要选择一些具有代表性的点来代理图像,检测出这些代表性的过程被称为特征点检测.三维重建依赖于这些点,所以特征点检测必不可少.

3)局部描述子(localdescriptor)提取:通常,我

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

而,算法考虑以像素为中心点的一片范围,查看该范围与周围的相似度,如果相似度高,则不会被认为是“角”,而在那些与附近像素的周围图像都很不相似的像素,才会被认为是“角”.相似度通常是将两个范围的对应点计算误差的平方和,其值越小代表相似度越高.

假设现在是对一个二维灰阶图像I来做检测.考虑选取一个固定像素点(x,y)为中心点,其周围像素为区块(patch),其中某点的位移为(u,v),因此中心点向量(x,y)与patch所有点的差的平方和记为(u,v),而对于每个(u,v)做不同加权,就可以得到:E(u,v)=

w(x,y)[I(x+u,y+v)∑x,y

-I(x,y)]2,

Moravec将“角”定义为自我相似程度低的点.因

们可以从特征点周围提取出一个小的几何区域(patch),并生成一个标识性的向量来代表这个区域的特征,这个特征向量被称为局部描述子或局部描述符.它将自己与其他区域区分开来,因而通常作为后续匹配过程的基础.

4)全局描述子(globaldescriptor)提取:用于描

述整幅图像的全局特征向量.它代表着图像中的高层特征或语意,通常用于图像检索领域.全局描述子可以抽象自局部描述子,也可能是直接从图像中生成特征.

5)特征匹配:一旦有了局部描述子或全局描述

其中w(x,y)为权值,在标准的Moravec算法中为常数1.

Moravec角点检测算法可以找出整个图像的局

(1)

子,就可以进行两个图像之间的匹配.找出图像间的匹配点,然后就可能利用PnP(Perspective⁃n⁃Point)[1]、光束平差法(bundleadjustment)[2]进行三维重建等后续工作.

大多数算法可能只依赖于局部描述子或全局描述子的其中之一,因而无须同时生成两者.近来年,有少量算法同时生成两个描述子,并彼此依赖.

部最大值(局部最不相似的点),这些局部最大值就很有可能是我们想要检测到的“角”.从这个意义上讲,Moravec算法不算是严格意义上的角点算法.

2)Harris算法[4]

Harris算法建立在Moravec算子的基础之上,它

2 传统图像特征检测与匹配

传统的图像特征检测与匹配依赖精心挑选的手工检测算法,有着较为扎实的数学理论基础.2􀆰1 特征点检测2􀆰1􀆰1 角点检测

角点检测是最早提出的特征点检测之一.角点

对Moravec进行了严格的数学建模和改进.主要体现为:克服Moravec只检测45°倍角的缺点,使用泰勒展开,覆盖所有方向的检测.

对于式(1)中的平方项进行泰勒展开式,假设Ix

和Iy是I的偏微分,可以得到:

éuù

ú.E(u,v)≈[u v]M(x,y)ê(2)êvëúû

E值容易受到噪声的干扰,因为窗口是二值方

没有严格的定义,但通常被视为两条边的交点,更狭义上讲,角点的局部邻域应该具有两个不同区域的不同方向的边界.在现实世界中,角点对应于物体的拐角,道路的十字路口、丁字路口等.从几何的角度上讲,角点通常表现为两个边缘的角上的点或邻域内具有两个主方向的特征点.角点是优秀的特征点,无论视角如何变换,这些点依然存在且稳定,并与邻域的点差别较大.但在实际应用中,大多数所谓的角点检测方法检测的是拥有特定特征的图像点,而不仅仅是“角点”.这些特征点在图像中有具体的坐标,并具有某些数学特征,如局部最大或最小灰度、某些梯度特征等.

1)Moravec角点检测算法[3]

形窗口.Harris改用具有平滑效果的高斯圆形窗口进行处理,减少了噪声的影响.

对泰勒展开后的结果矩阵进一步优化,无需进行矩阵的特征分解,只需估计矩阵的行列式和迹,即可以判断角点.

Shi和Tomasi进一步优化了此算法,提出了Shi⁃

Tomasi角点检测算法[5],Harris角点检测算法的稳定性和域值中的k值有关,而k是个经验值,不好设定最佳值.Shi⁃Tomasi角点检测假设一般图像每个像素所给出的函数值通常是光滑且稳定的,角点的稳定性其实和矩阵M的较小特征值有关,于是直接用较小的那个特征值作为分数,这样就不需要调整k值了.

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

263

从本质上讲,Harris算法、Shi⁃Tomasi算法都是基于梯度的检测算法,基于梯度的检测方法计算复杂度高,其图像中的噪声可以阻碍梯度计算.

3)FAST算法[6]

事实上,上述的角点检测算法都显得太过学术,

2􀆰1􀆰2 斑点检测

区别于角点和边缘,斑点(blob)是更具普通意

义的特征点.斑点主要描述的是一个区域.该区域相对其周围的像素在颜色或者灰度上有明显区别.例如:从远处看,一颗树是一个斑点,一块草地是一个斑点,一个人也可以是一个斑点.由于斑点代表的是一个区域,相比单纯的角点,它的稳定性要好,抗噪声能力要强[7].

要检测出这样的“点”的思路也很简单,最直接

在工程化过程中面临着计算量较大、速度较慢的严重问题.对此,Rosten等[6]以更加简单的方式来定义角点,并提出了一个快速而简洁的检测算法(FAST).

FAST角点定义为:若某像素点与其周围领域内①在图片中选择一个像素点P,并把它的亮度②以该像素点为中心作一个半径等于3像素的③设定一个合适的阈值t,如果在这个大小为16

的就是基于求导的微分方法.我们可以使用一阶微分算子或二阶微分算子求出这样的“点”,一个常用的考虑是使用拉普拉斯算子.拉普拉斯算子是简单的各向同性微分算子,它具有旋转不变性,所以可以方便的用于变化检测.但拉普拉斯算子对噪声比较敏感.1980年,Marr和Hildreth提出将拉普拉斯算子与高斯低通滤波相结合,提出了LoG(LaplaceandGuassian,高斯拉普拉斯算子)算子,从而大大降低了处理速度慢.

1)DoG(DifferenceofGaussian,高斯差分算子)Lowe于1999年提出了SIFT算法,并于2004年

足够多的像素点处于不同的区域,则该像素点可能为角点.具体算法步骤如下:值设为Ip;

离散化的Bresenham圆,这个圆的边界上有16个像素,如图2所示;

个像素的圆上有n个连续的像素点,它们的像素值要么都比Ip+t大,要么都比Ip-t小,那么它就是一个角点.

事实上,FAST算法中的N值很难直接给出,所以文献[6]从ID3算法中学习了合适的N值,并采用非极大值抑制的方法解决从邻近的位置选取了多个特征点的问题.从这个意义上讲,FAST算法已非严格意义上的数学算法,而是现代意义上的数据算法.

FAST检测算法计算速度快,可以应用于实时场

对噪声的敏感度[8].LoG算子的缺点在于计算量大、与SIFT算法[9]

整理发表[9].SIFT算法的全称为:尺度不变特征变换(Scale⁃InvariantFeatureTransform,SIFT),它是一个完整意义上的解决方案,很大程度上解决了目标的旋转、缩放、平移、图像仿射/投影变换、光照影响、杂乱场景、噪声等重大难题.

由于计算机无法预知图像中物体的尺度,因而需要同时考虑图像在多个尺度下的描述,从而获知感兴趣物体的最佳尺度.如果某些关键点在不同的尺度下都相同,那么在不同尺度的输入图像下就都可以检测这些关键点匹配,也就是尺度不变性[10].

景中.在FAST特征提出之后,实时计算机视觉应用中特征提取性能才有显著改善.目前,FAST算法以其高计算效率、高可重复性成为计算机视觉领域最流行的角点检测方法.

图2 FAST算法检测[6]

Fig􀆰2 FeaturepointsdetectionforFAST[6]

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.264

SIFT算法引入尺度空间理论,同时建议:在某一尺度上的特征检测可以通过对两个相邻高斯尺度空间的图像相减,得到DoG的响应值图像D(x,y,σ).然后仿照LoG方法,通过对响应值图像D(x,y,σ)进行局部最大值搜索,在空间位置和尺度空间定位局部特征点将LoG算子简化为DoG算子.这样不仅可以得到更好的关键点,而且可以减少计算量.

SIFT算法是近20年来传统图像特征检测算法

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

2􀆰2 局部描述子

正如人眼做图像匹配一样,事实上,我们不能将图像的点与点匹配起来,只能将图像中的一块与另外图像中的一块匹配起来.换言之,我们匹配的其实是图像的局部特征,因而,在特征点周围选择一块区域,用一些特征向量对其进行描述就变得理所当然,这就是局部描述子.

局部描述子的核心问题是不变性(鲁棒性)和可区分性.由于使用局部图像特征描述子的时候,通常是为了鲁棒地处理各种图像变换的情况.因此,在构建/设计特征描述子的时候,不变性问题就是首先需要考虑的问题.在宽基线匹配中,需要考虑特征描述子针对视角变化的不变性、对尺度变化的不变性、对旋转变化的不变性等特性;在形状识别和物体检索中,需要考虑特征描述子对形状的不变性.

传统的描述子都是基于数学的方法精心挑选得出.SIFT描述子是其中的佼佼者.首先它利用关键点邻域像素的梯度方向的分布特性,为每个关键点指定方向参数,从而保证了特征点的旋转不变性以及尺度不变性.然后再统计以特征点为中心的局部区域梯度,生成128维梯度特征向量,再归一化特征向量,去除其光照的影响.通过以上步骤产生的特征点3所示.

具有旋转不变、尺度不变以及光照不变等性能,如图

SIFT描述子最大的问题在于计算量大、效率不

中的标杆算法,具有里程碑意义,其谷歌学术的引用数高达55000多次,通常用作特征检测算法的Base⁃line使用.与SIFT算法相比较事实上成为衡量一个算法优良程度的基准.由于其专利问题,所以在开源算法中使用不多.

2)SURF算法[11]

中.2006年,Bay等改进了SIFT算法,提出了SURF

SIFT算法由于计算量巨大,不能用于实时系统

(Speeded⁃UpRobustFeatures,加速稳健特征)快速算法[11],在保持SIFT算法优良性能特点的基础上,解决了SIFT计算复杂度高、耗时长的缺点,提升了算法的执行效率.为了实现尺度不变性的特征点检测与匹配,SURF算法先利用Hessian矩阵确定候选点,然后再进行非极大抑制.同时,为提高算法运行速度,在精度影响很小的情况下,用近似的盒状滤波器代替高斯核,并引用查表积分图,从而实现比标准SIFT算法快3倍的运行速度.

3)KAZE(风)算法[12]

高,不利于后面的特征点匹配.事实上,并不是所有维都在匹配中有着实质性的作用.因而可以用PCA、LDA等特征降维的方法来压缩特征描述子的维度.算法[11]、PCA⁃SIFT算法[14]、SSIFT算法[15]等.在此基础上,发展出一大批的改进算法,例如SURF

BRIEF(BinaryRobustIndependentElementary

传统的SIFT、SURF等特征检测算法都是基于

线性的高斯金字塔进行多尺度分解来消除噪声和提取显著特征点的.但高斯分解是牺牲了局部精度为代价的,容易造成边界模糊和细节丢失.非线性的尺度分解希望解决这种问题,由此,KAZE算法的作者Alcantarilla等[12]提出使用非线性扩散滤波法,将图像亮度(L)在不同尺度上的变化视为某种形式的流函数(flowfunction)的散度(divergence).由于非线性微分方程没有解析解,一般通过数值分析的方法进行迭代求解.传统上采用显式差分格式的求解方法只能采用小步长,收敛缓慢.KAZE中采用AOS(Ad⁃ditiveOperatorSplitting)算法对结果进行收敛.

在KAZE算法的基础上,Alcantarilla等在2013

Features,、可靠的二进制基础特征)算法把局部描述子的简化做到了极致[16].它无需计算类似于SIFT的复杂特征描述子,只生成一个二值串即可.首先,在特征点周围选择一个块,在块内通过一种特定的方法来采样,挑选出n个点对.然后对于每一个点对(p,q),比较这两个点的亮度值,如果I(p)>I(q)则这个点对生成了二值串中一个的值为1,否则为0.所有n个点对,都进行比较之后,就得到了一个n位长的二进制串,通常n可以设置为128、256或512.对于一个S×S的块,标准BRIEF算法的(p,q)采样方式为:p和q都符合(0,S2/25)的高斯分布.BRIEF算法简单、实时性较好,但无法支持大角度的旋转,因

年进行改进,提出了AKAZE算法[13].AKAZE是加速版KAZE特征,即AcceleratedKAZEFeatures.作者引入快速显示扩散数学框架FED来快速求解偏微分方程,FED的引入让它比之前的AOS更快更准确.

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

265

Fig􀆰3 LocaldescriptorforSIFTalgorithm

图3 SIFT局部描述子

而需要增加其描述子的旋转不变性.

FAST方向和BRIEF旋转不变性)算法

ORB(OrientedFASTandRotatedBRIEF,支持

[17]

配的特征点检测出来

RANSAC(RANdomSAmpleConsensus,随机抽样一致)算法[14]是使用最广泛的一致性优化算法.其核心思想就是随机性和假设性,它可以从一组包含“局外点”的观测数据集中,通过迭代方式估计数学模型的参数.它是一种不确定的算法,有一定的概率得出一个合理的结果,而为了提高概率必须提高迭代次数.随机性用于减少计算,循环次数是利用正确数据出现的概率.事实上,RANSAC算法广泛用于各种一致性优化问题,未能考虑到图像优化匹配自身特点,如仿射变换、透视变换等.为此,相当多的算法对此进行了改进,引入仿射不变性的ASIFT(AffineScale性的PSIFT[19](PerspectiveScaleInvariantFeatureTransform)算法、变换一致性的CODE[20](CoherenceBased

Correspondence)算法,这些算法都对匹配问题进行了各个方向的优化.

2017年,Bian等在CODE算法的基础上提出了

Decision

Boundaries

for

Feature

InvariantFeatureTransform)算法[18]、引入透视不变

其中,假阳性匹配可以通用优化算法将其剔出.

Rublee等的论文ORB:anefficientalternativetoSIFT

来自于

orSURF,它是现今实时SLAM系统中应用最广泛的算法之一.其特征提取由FAST算法改进,利用图像金字塔为其增加了尺度不变性;特征点描述是根据BRIEF特征描述算法改进的,它利用灰度质心法计算方法来解决以及旋转不变性,并放弃手工选择的n对点,使用数据学习的方法来学习到如何选择256对点.事实上,传统手工算法从2010年后与学术算法之间的界限变得模糊,混合使用机器学习和手工特征子成为趋势.2􀆰3 特征点匹配

一旦有了特征描述子,我们就可以将图像的特征点两两对应起来,这个过程称为特征点匹配.特征点匹配最基本的方法是使用暴力匹配(Brute⁃forcematcher),它将待匹配图片的特征描述子中每一行从而得到最佳匹配.这个距离根据不同的描述子可能有不同的选择,比如ORB算法中使用汉明距离.暴力匹配最大的问题在于计算的时间复杂度和空间复杂度都比较高,因而引入FLANN匹配(Flann⁃basedmatcher),它使用快速近似最近邻搜索算法寻找,这是一种近似匹配,不一定能找到最佳匹配,但速度得到大大加快.优化的方法通常是使用索引,一般有线性索引、kd树索引、k均值索引、组合索引等.

事实上,直接使用描述子匹配总会遇到错误的匹配,这其中又通常分为两种:应的特征点检测为匹配

1)假阳性匹配(False⁃positivematches):将非对2)假阴性匹配(False⁃negativematches):未将匹

都与待匹配图片的描述子中每一行进行距离计算,

一种简单快速的GMS(Grid⁃basedMotionStatistics,基于网格的运动统计)优化算法[21],它是一种基于网格的运动统计特性的方法,将运动平滑转成去除错误匹配的数据测量,使用一种有效的基于网格的分数估计方法,使得特征匹配算法能达到实时性.该方法可以迅速剔除错误的匹配,从而提高匹配的稳定性.图4展示了SIFT算法与GMS算法的对比效果.

3 基于学习的图像特征检测与匹配

手工算子总是基于这样或那样的前提假设,是对现实世界的简化和抽象.因而,在鲁棒性上和泛化

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.266

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

图4 SIFT算法匹配(左)和GMS匹配(右)[21]

Fig􀆰4 MatchingresultforSIFT(left),andGMS(right)[21]

能力方面有着天然的不足.近10年来,随着计算性能的不断攀升和大规模数据标注数据集的普及,以深度学习为首的机器学习算法成为研究和应用的基础,传统的手工标注的描述子逐渐向以数据驱动的学习算法转变.

3􀆰1 基于学习的关键点检测

单独研究关键点检测算法并不多见,其原因在于:我们尝试对一张图像生成稀疏的兴趣点,但我们很难说明哪些是兴趣点,RGB的兴趣点与深度图像的兴趣点是否一致.因而,一段时间以来,研究者很难提出取代传统算法的关键点检测算法.

Verdie等提出了一个时间不变的学习探测器[22]

无法进行人工标注,生成训练集.Quad⁃Networks算法[23]使用无监督数据表达方式,训练神经网络以不变变换的方式对点进行排名,将学习兴趣点检测器的问题转化为学习排名点的问题.该算法认为兴趣点来自某些响应函数的顶部/底部分位数,因而从该排名的顶部/底部中提取兴趣点.

也有研究从已生成的众多手工特征点中进一步学习,提取出更加稳定的特征点.Key.Net[24]就是采用的这种方式,它从多个尺度上采用手工特征点,通过CNN(ConvolutionalNeuralNetwork,卷积神经网络)网络进行进一步的过滤,再复合到原尺寸的图像上,其网络结构如图5所示.3􀆰2 基于学习的局部描述子检测

局部描述子的作用在于提取局部图像的特征,通常我们可以把一整幅图像分成均等的块,每个小块被称为一个patch.对于深度学习的研究者而言,所有的手工特征选择算子都远逊于类如CNN这样的特征提取网络,因而,使用CNN来取代传统的手工特征描述子成了自然而然的事.

patch成对地输入到CNN网络中,再加入决策网络用于判断其相似性.论文对网络结构进行了基本的尝试,从中选择孪生网络,实现了区分相似度的目的.文献[26]的思路与之类似,通过孪生CNN网络

文献[25]在这个方面进行了尝试.它把图像的

(TemporallyInvariantLearnedDetector,TILDE),用于解决在天气和光照条件急剧变化的情况下,检测可重复的关键点.它使用一组不同的季节、不同的时间,从相同的角度捕捉的相同场景下的训练图像,通过DoG来生成训练数据集,使用自定义的分段线性回归函数进行训练,并使用PCA(PrincipalComponentAnalysis,主成分分析)进行优化,从而实现了在光照变化情况下,比SIFT更好的可重复特征点检测的性能.

学习算法依赖数据.如果使用关键点检测的学习,面临的另一个大的问题是:如何标注数据集?如前所述,我们很难说明哪些点才是关键点,因而似乎

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

267

图5 Key.Net网络结构[24]

Fig􀆰5 NetworkstructurediagramforKey.Net[24]

学习patch表示,在训练和测试期间,它使用L2距离,提出了一种128⁃D描述子,其欧几里德距离反映了patch相似性,用以替代SIFT的局部描述子.文献[27]则更进一步,但将网络分为特征提取网络、度量网络和度量训练网络三个部分,分别采用类AlexNet网络取特征、度量网络进行距离度量和孪生网络进行相似度判断.它没有采用传统的欧式距离,而是学习了一个三层全连接的度量网络.

如果说2015年时的深度网络还停留在相似匹配,2016年后的网络则明显更进一步,学习到的特征使得让相同的更靠近,不同的更分离.文献[28]与文献[29]都不约而同地使用三元组损失函数进行训练,并且开始考虑算法的实用性,使用浅层神经网络进行特征提取.

L2⁃NET[30]提出了一个结构简单、特征提取效果

图6 L2⁃Net网络结构[30]Fig􀆰6 CNNlayersforL2⁃Net[30]

较好的CNN网络,它提出递进的采样策略,可以保证网络在很少的epochs就可以访问到数十亿的训练样本,同时,重点关注patch特征之间的相对距离,也就是匹配上的patch对距离比未匹配上的patch对距离更近,从而取消了距离阈值的设置.此外,L2⁃NET网络也包含了相对复杂的一个级联网络来处理中心块的信息,并在多个点设定了网络的多个损失函数,这也使得训练、收敛都相对困难.L2⁃NET的网络结构如图6所示.

HardNet[31]在L2⁃NET的基础上进行了进一步

难样本入手,无需使用两个辅助损失项,只需要使用一个损失函数,简单却有效,学习到了更有力描述子,在图像匹配、检索、宽基线等方面都做了大量详细实验,在真实任务中取得了最先进的结果.作者在Github上提供了完整的代码,并使用多个数据集,不断提高其泛化能力.至此,图像特征提取有了一个可以真正进入实用阶段的算法.

基于CNN的局部描述子学习,尽管在基于像素块的数据集上获得了很好的效果,却在SFM数据集上未能表现出良好的泛化性能.GeoDesc算法[32]采用和L2⁃Net相似的网络结构,提出了一种融合了几

的改进,它受到Lowe的SIFT的匹配标准启发,从困

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.268

何约束的局部描述子学习方法,采用传统SFM方法,得到三维点及其对应的一系列像素块的对应关系.选用的像素块为SFM中使用的特征点,这样能够提高样本的准确性.算法整合了多视图重构中的几何约束关系,因而在数据生成、数据采样和损失函数的计算等方面促进了局部描述子的学习过程,生成的描述子被称为GeoDesc描述子.SOSNet

[33]

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

典(codebook),用它来代表图像本身.聚类算法同样可以采用K⁃means聚类,或者随机森林(RandomForest)[37].FV(FisherVectors)编码算法[38]也被经常

使用,它采用混合高斯模型(GMM)构建字典.不过,FV不只是存储视觉词典在一幅图像中出现的频率,还统计了视觉词典与局部特征(如SIFT)的差异.

VLAD(VectorofLocalAggregatedDescriptors)系

将二阶

相似性(SOS)用于学习局部描述子,并提出了一个新的正则化项,称为二阶相似正则化(SOSR),通过将SOSR结合到训练中,在多个数据集上表现优秀.patch块的选择都存在较大的问题,不同的描述子选择各不相同,通常必须由关键点检测器事先适当地估计其大小、形状、方向.如果两个补丁不对应,则它们的描述子将不匹配.为此,AffNet[34]探索影响学习和配准的因素:损失函数、描述子类型、几何参数化以及可匹配性和几何精度之间的权衡,并提出了一种新的硬负常数损失函数(HardNegative⁃ConstantLossFunction)用于仿射区域的学习.文献[35]则建议使用对数极坐标(log⁃polar)采样方案直接提取“支持区域”.通过同时对点的近邻进行过采样和对远离点的区域进行欠采样,可以提供更好的表示.它也证明了这种表示特别适合于使用深度网络学习描述子.此模型可以在比以前更大的比例尺范围内匹配描述子,还可以利用更大的支持区域而不会遭受遮挡.

3􀆰3 基于学习的全局描述子检测

由于局部描述子专注细节、偏重纹理,因而,对于通用图像检索这类更加抽象的任务而言,使用局部描述子很难得到正确的检索结果,所以,需要一个更加高层次抽象的特征检测,即全局描述子检测.

从某种意义上讲,图像分类与目标检测也算是全局意义上的描述子,但它们受限于类别标签,无法提供通用检索.因而,对于通用图像检索,尤其是大规模图像检索而言,提取基于图像的全局描述子成为一个非常重要的选择.

BoW(Bag⁃of⁃Words)算法是简单直观的全局描事实上,无论是使用哪个数据集来训练网络,

列算法是颇受关注的全局描述子算法.VLAD算法[39]首先针对一张图像,提取了N个D维特征,再对全部的N×D特征图进行K⁃means聚类,获得K个聚类中心,接着获取并累加了每个聚类的所有特征残差,最终得到了K个全局特征.这K个全局特征表达了聚类范围内局部特征的某种分布,抹去了图像本身的特征分布差异,只保留了局部特征与聚类中心的分布差异,从而生成了特定大小的全局描述子,这样生成的编码也被称为VLAD编码.NetVLAD[40]在VLAD的基础上,使用CNN来进行全局描述子提取.将VLAD公式中的二值函数平滑化,转化为可微的函数算法.除此之外,它使用监督学习获得聚类中心,从而向真正把同一物体的类别聚在一起的目标跨进了一步.NetVLAD最大的问题在于:输出特征的维度太大,使得无论是处理还是拟合都变得困难.NeXtVLAD[41]则在NetVLAD的基础上更进一步,它吸收了ResNeXt对ResNet网络进行改造的思想,在应用NetVLAD聚合之前,将其中的FC网络一分为三,将高维特征分解为一组相对低维的向量,从而达到了更强拟合并降维的目标.

除此之外,直接利用CNN从图像提取全局特征子的想法则更加普遍.NeuralCode描述子[42]首开先河,提出在大型分类数据集(如Image⁃Net)上进行训练的分类卷积神经网络,靠近顶端的全连接层输出值可以直接用作图像视觉内容、语义级别的高层次描述子(descriptor).文献[43]引入Sum⁃PooledConv⁃olutionalfeatures(SPoC)取代Max⁃PooledConv⁃features作为图像全局描述子.文献[44]通过使用孪生网络和排序损失函数,改进RMAC描述子,将其投射为完全可区分的网络,从而产生了一个较好的图像描述子.文献[45]提出了一种REMAP(Multi⁃LayerEntropy⁃GuidedPooling,多层熵引导池化)全局描述子.该描述子从多个CNN层中学习并聚集了深层特征的层次结构,并以三重态损失端对端地进行了训练.REMAP明确学习了在视觉抽象的各种语义级别上相互支持和互补的判别特征,从而具有更好的代

述算法.BoW算法源自文本分类领域的词袋模型.假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,引入到图像领域后成为BoVW(BagofVisualWords)算法[36].它利用SIFT、SURF算法生成的局部描述子进行聚类,把最具代表的“单词”选择出来,构造成一个字

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

269

表性.

3􀆰4 基于学习的匹配算法

RANSAC算法通常用于匹配后的优化算法,但

并相互配合良好地运行有助于提升整体的检测性能.图7展示了LIFT图像的检测管道.

LF⁃Net[49]的思路与文献[48]类似,它使用一个

只有一致性是远远不够,包括GMS算法在内的匹配算法总是提出类如分块平滑这样的简化假设,这些假设并不总是成立.使用学习算法引入真实数据,进行更加真实的匹配成为自然的选择.

文献[46]认为,通常的立体匹配图像之间存在类如本质矩阵(essentialmatrix)的约束,它是远比RANSAC算法更强的约束,因而应当利用这样的约束.文献[46]将生成的特征点视为点云,受PointNET的启发,通过深度网络来学习这种映射方式,拟合出点集的坐标对应关系到点的对应正确性的映射关系,从而实现更好的匹配.SuperGlue[47]是MagicLeap公司于2019年的最新成果,它使用图神经网络来匹配网络,通过共同查找对应关系并拒绝不可匹配的点来匹配两组局部特征.通过解决可微分的最优变换问题来估算分配,引入图神经网络预测其代价.Su⁃perGlue在上下文聚合机制加入注意力,使其能够学习3D世界的几何变换和规律性的先验知识,共同推理基本的3D场景和要素分配.其代码可以在现代GPU上实时执行匹配,并且很容易集成到现代SFM或SLAM系统中.

3􀆰5 端到端(end⁃to⁃end)检测

深度学习优于传统算法的一个重要特点在于:可以设计一个网络,使得输入图像直接输出特征点、局部描述子.即:一个端到端的检测网络.

LIFT算法[48]成为一个成功的起点.它设计了一

检测网络生成一个尺度空间分数图和密集的方向估计,用于选择关键点位置、尺度和方向.用可微采样器(STN)对所选关键点周围的图像块进行裁剪,并将其反馈给描述子网络,每一个patch产生一个描述子.为训练网络,它设计了一个左右两分支的孪生结构,该结构以同一场景的两幅图像为输入.其深度图和摄像机的内、外特性都可以通过传统的SFM方法得到.再对右边的图像进行变形,以确定图像之间的ground⁃truth对应关系.最新的RF⁃NET[50]是在LF⁃NET基础上改进的,它构造了更大的感受野特征图,从而导致更有效的关键点检测,同时引入一个广义的损失函数项———邻居掩码,以便于训练样本的选择,改进了稳定性.

SuperPoint[51]是MagicLeap公司于2018年发表

的一篇文章,它基于自监督训练的特征点检测和描述子提取方法,是一个深度学习用于特征点提取和匹配的方法.它提出了一种可以自我学习的方法,通过构建pseudo⁃groundtruth的特征点位置,并通过这些点本身来训练特征点检测器,从而避免了大量人力的手工标注.它首先手工生成一个具有简单几何形状特征的合成数据集,它们有着明确的特征点,再使用这些点来训练一个名为MagicPoint的检测网络,接着,引入MS⁃COCO数据集里未标注的图像,使用MagicPoint检测器来进行特征点检测并混合多个对应变换后的的图像特征点,这个过程相当于对图像进行标注.最后,结合特征点和描述子来训练基于MagicPoint网络的全卷积神经网络,于是就得到最终SuperPoint优势明显,可用于SLAM中,对季节和环境光照具有更强的鲁棒性.

为了学到更加重复、稳定、可靠的特征,R2D2算的检测器———SuperPoint.与2016年的LIFT相比,

个完整的深度网络体系结构,该体系结构实现了完整的特征点处理管道,即检测、方向估计和特征描述.在保持端到端的差异性的同时学习如何以统一的方式完成特征点检测、方向判断和局部描述子生成这三个问题,并证明:对这些单独的步骤进行优化

图7 LIFT图像检测管道[48]Fig􀆰7 PipelineforLIFT[48]

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.270

法[52]主张仅在可以高置信度执行匹配的区域中学习描述子.它同时学习关键点检测和描述子以及判断局部描述子的预测因子,从而避免出现歧义区域,生成可靠的关键点检测和描述子.

与传统的先生成特征点,再提取描述子不同,D2⁃Net[53]使用一个CNN网络,输入h×w的原始图片I,输出f(I)为一个h×w×c的3D张量的特征图(FeatureMap),可以将该特征图看作类似于SIFT等传统检测器中的DoG和特征子的混合,再从特征图里同时提取关键点和特征描述子(detect⁃and⁃de⁃scribe).从某种意义上讲,特征描述子也就是关键点,关键点和描述子之间变成特征图的一体两面,思路颇有特色.

3􀆰6 多任务融合匹配

事实上,现实中的任何一个图像匹配都不能仅仅使用局部描述子,而应当在更高的上下文和全局描述子的基础上进行匹配.如果再进一步,我们可以把图像特征点、局部描述子、全局描述子、匹配及优化多种任务合为一体,以框架的形式完整实现,才能真实地完成现实中的匹配.近年来的研究正在呈现这样的特点.

DELF(DEepLocalFeature)[54]的架构是Google

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

成全局图像描述子、检测特征点、局部特征点描述子.首先通过图像检索的方式(图像级的描述子检索)获取候选匹配“地点”,而后通过局部特征匹配实现精确的六自由度(6⁃DoF)位姿估计.由于图像全局描述子估计和局部特征的检测是两个分开的任务,如果采用两个网络,将会需要大量的计算量.为此,HF⁃Net采用多任务学习的方法,通过两个任务共用部分网络,达到了通过一个网络同时估计全局描述子和提取局部特征的目的.该网络由一个共同的编码网络和三个“头部网络”组成.三个“头部网络”分别能输出全局的图像描述子、特征点检测响应图和特征点描述子.其中编码网络由一个MobileNet搭建而成,全局图像描述子由NetVLAD层输出,采用SuperPoint解码器实现特征点的提取和描述子的计算.为解决数据集难以满足的困难,网络还采用知识蒸馏的方法进行网络的训练,通过利用“教师网络”,减小了对数据集的要求.HF⁃Net在网络效果上和实时性上都表现得较为突出.

HF⁃Net[57]能够使用一个网络完成三项任务:生

4 总结

现实世界是丰富、复杂而多样化的,手工设计算法只是对现实世界的简化和抽象,因而很难适应宽基线下图像的可重复性、可区分性、准确性和高效性的要求,传统的手工设计的图像检测与匹配算法已近瓶颈.近十年来,以深度学习为首的图像检测与匹配正逐步走向主流.它们在所有的技术指标上都取得了或多或少的进步,更加难能可贵的在于:这一切都可能通过一个完整的end⁃to⁃end(端到端)网络来加以实现.

但是,我们也要看到,这些算法仍然存在一些明显的缺陷.深度学习算法的问题之一在于数据集泛化问题,我们无法取得面对现有世界都具有普适性的数据集.因而,权重数据总会在这样或那样的场景下变得不那么可靠,这也是宽基线图像处理的最大问题之一.同时,深度学习的加入加重了计算的要求,一些算法需要大量的CPU甚至GPU的加入,在低功耗、实时要求较为苛刻的领域表现明显.

另一方面,随着计算能力的不断增强,嵌入式的前端变得越来越智能化.一些不具备简单视觉识别能力的设备将会更多地使用到传统的基于数学建模的检测算法,而一些有条件提供较强算力的设备则会充分使用深度学习算法和机器学习算法.我们正

提出的一个以图搜图模式的图像检索架构.严格意义上讲它更加专注于生成全局描述子,然后进行高层匹配.它放弃了传统从局部描述子生成全局描述子的过程,而是直接使用图像级的类别进行弱监督学习得到的.为了识别图像检索中具有语义信息的局部特征,它还提出了一个关键点选择的机制,这个机理会共享更多网络层的描述子信息,对语义特征引入了注意力机制,因而表现力较强.生成描述子后,再使用KD⁃tree和PQ进行最近邻搜索,从而实现了快速查找的目标.2019年,DELF得以升级,使用R⁃ASMK算法[55]和最新的加入框的数据集,大大提高在地标方面进行数据检索的精度.但作为专一的架构,它只关心了图像检索任务,在SFM和SLAM上不具有通用性.

ContextDesc[56]通过引入上下文感知来扩展现

有的局部特征描述子,从而超越了局部细节表示.它提出了一个统一的学习框架,该框架利用和聚合了跨模态上下文信息,包括来自高层图像表示的视觉上下文,和来自二维关键点分布的几何上下文,它融合所有的特征信息,加入一种预测“匹配能力”的度量,通过学习框架,实现更好的匹配的目标.

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

271

处在一个由表形到表意变革的初始阶段,图像特征检测与匹配将在这里发挥出基础而关键的作用.

近年来,随着深度学习、图神经网络、多任务学习的不断深化,我们看到了使用一个框架来代替所有任务的曙光,它能将传统算法和现代学习融为一体,同时具有实时、泛化、宽基线以及一定的数学支持的特征,为真正的工业图像处理打下坚实的基础.

[16] [17] [15] 

参考文献

References

[1] FischlerMA,BollesRC.Randomsampleconsensus:a

paradigmformodelfittingwithapplicationstoimageanalysisandautomatedcartography[J].CommunicationsoftheACM,1981,24(6):381⁃395

[2] TriggsB,McLauchlanP,HartleyR,etal.Bundleadjust⁃

ment:amodernsynthesis[C]∥IEEEInternationalCon⁃ferenceonComputerVision,1992:98⁃372

[3] MoravecH.Obstacleavoidanceandnavigationinthereal

worldbyaseeingrobotrover[R].TechReport,RoboticsInstitute,CarnegieMellonUniversity,1980,CMU⁃RI⁃TR⁃01⁃18

[4] HarrisC,StephensM.Acombinedcornerandedge

detector[C]∥ProceedingsoftheAlveyVisionConfer⁃ence,1988,DOI:10􀆰5244/C.2􀆰23

[5] ShiJB,TomasiC.Goodfeaturestotrack[C]∥Proceed⁃

ingsofIEEEConferenceonComputerVisionandPatternRecognition,1994,DOI:10􀆰1109/CVPR.1994􀆰323794

[6] RostenE,DrummondT.Machinelearningforhigh⁃speed

cornerdetection[C]∥EuropeanConferenceonComputerVision,2006:430⁃443

[7] 赵小川.现代数字图像处理技术提高及应用案例详

解:MATLAB版[M].北京:北京航空航天大学出版社,2012

[8] MarrD,HildrethE.Theoryofedgedetection[J].Pro⁃

ceedingsoftheRoyalSocietyofLondon,SeriesB,Biolog⁃icalsciences,1980,207(1167):187⁃217

[9] LoweDG.Distinctiveimagefeaturesfromscale⁃invariant

keypoints[J].InternationalJournalofComputerVision,2004,60(2):91⁃110

[10] LindebergT.Scale⁃spacetheoryincomputervision[M].

Berlin:Springer,1994

[11] BayH,TuytelaarsT,vanGoolL.SURF:speededup

robustfeatures[C]∥EuropeanConferenceonComputerVision,2006:404⁃417

[12] AlcantarillaPF,BartoliA,DavisonAJ.KAZEfeatures

[C]∥EuropeanConferenceonComputerVision,2012:214⁃227

[13] AlcantarillaPF,NuevoJ,BartoliA.Fastexplicit

diffusionforacceleratedfeaturesinnonlinearscalespaces[J].ProceedingsoftheBritishMachineVisionConference,2013.DOI:10􀆰5244/C.27􀆰13

[14] KeY,SukthankarR.PCA⁃SIFT:amoredistinctiverepre⁃

sentationforlocalimagedescriptors[C]∥Proceedingsof

[18] [19] 

[20] 

[21] 

[22] 

[23] 

[24] [25] 

[26] 

[27] 

[28] 

the2004IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,2004:506⁃513刘立,彭复员,赵坤,等.采用简化SIFT算法实现快速图像匹配[J].红外与激光工程,2008,37(1):181⁃184LIULi,PENGFuyuan,ZHAOKun,etal.SimplifiedSIFTalgorithmforfastimagematching[J].InfraredandLaserEngineering,2008,37(1):181⁃184

CalonderM,LepetitV,StrechaC,etal.Binaryrobustin⁃dependentelementaryfeatures[C]∥EuropeanConferenceonComputerVision,2010:778⁃792

RubleeE,RabaudV,KonoligeK,etal.ORB:anefficientalternativetoSIFTorSURF[C]∥Proceedingsofthe2011InternationalConferenceonComputerVision,2011:2564⁃2571

MorelJM,YuGS.ASIFT:anewframeworkforfullyaffineinvariantimagecomparison[J].SIAMJournalonImagingSciences,2009,2(2):438⁃469

蔡国榕,李绍滋,吴云东,等.一种透视不变的图像匹配算法[J].自动化学报,2013,39(7):1053⁃1060

CAIGuorong,LIShaozi,WUYundong,etal.Aperspectiveinvariantimagematchingalgorithm[J].ActaAutomaticaSinica,2013,39(7):1053⁃1060

LinWY,WangF,ChengMM,etal.CODE:coherencebaseddecisionboundariesforfeaturecorrespondence[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2018,40(1):34⁃47

BianJW,LinWY,MatsushitaY,etal.GMS:grid⁃basedmotionstatisticsforfast,ultra⁃robustfeaturecorrespon⁃dence[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2017:4181⁃4190

VerdieY,YiK,FuaP,etal.Tilde:atemporallyinvariantlearneddetector[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015:5279⁃5288

SavinovN,SekiA,LadickyL,etal.Quad⁃networks:unsu⁃pervisedlearningtorankforinterestpointdetection[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:1822⁃1830

Barroso⁃LagunaA,RibaE,PonsaD,etal.Key.Net:key⁃pointdetectionbyhandcraftedandlearnedCNNfilters[J].arXivpreprint,2019,arXiv:1904􀆰00889

ZagoruykoS,KomodakisN.Learningtocompareimagepatchesviaconvolutionalneuralnetworks[C]∥Proceed⁃ingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015:4353⁃4361

Simo⁃SerraE,TrullsE,FerrazL,etal.Discriminativelearningofdeepconvolutionalfeaturepointdescriptors[C]∥IEEEInternationalConferenceonComputerVision,2015:118⁃126

HanXF,LeungT,JiaYQ,etal.MatchNet:unifyingfea⁃tureandmetriclearningforpatch⁃basedmatching[C]∥IEEEConferenceonComputerVisionandPatternRecog⁃nition,2015:3279⁃3286

BalntasV,RibaE,PonsaD,etal.Learninglocalfeaturedescriptorswithtripletsandshallowconvolutionalneuralnetworks[C]∥TheBritishMachineVisionConference,2016.DOI:10􀆰5244/C.30􀆰119

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.272

[29] BalntasV,JohnsE,TangLL,etal.PN⁃Net:conjoined

tripledeepnetworkforlearninglocalimagedescriptors[J].arXivpreprint,2016,arXiv:1601􀆰05030

[30] TianYR,FanB,WuFC.L2⁃Net:deeplearningofdis⁃

criminativepatchdescriptorineuclideanspace[C]∥IEEEConferenceonComputerVisionandPatternRecog⁃nition,2017:661⁃669

[31] MishchukA,MishkinD,RadenovicF,etal.Workinghard

toknowyourneighbor􀆳smargins:localdescriptorlearningloss[J].AdvancesinNeuralInformationProcessingSys⁃tems,2017:4826⁃4837

[32] LuoZ,ShenT,ZhouL,etal.GeoDesc:learninglocalde⁃

scriptorsbyintegratinggeometryconstraints[C]∥Pro⁃ceedingsoftheEuropeanConferenceonComputerVision,2018:168⁃183

[33] TianY,YuX,FanB,etal.SOSNet:Secondorder

similarityregularizationforlocaldescriptorlearning[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2019:11016⁃11025

'F,MatasJ.Repeatabilityisnote⁃[34] MishkinD,Radenovic

nough:learningaffineregionsviadiscriminability[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2018:287⁃304

[35] EbelP,MishchukA,YiKM,etal.Beyondcartesianrep⁃

resentationsforlocaldescriptors[C]∥ProceedingsofIEEEInternationalConferenceonComputerVision,2019:253⁃262

[36] SivicJ,ZissermanA.VideoGoogle:atextretrievalap⁃

proachtoobjectmatchinginvideos[C]∥ProceedingsoftheNinthIEEEInternationalConferenceonComputerVision,2003:1470

[37] MoosmannF,TriggsB,JurieF.Fastdiscriminativevisual

codebooksusingrandomizedclusteringforests[C]∥Pro⁃ceedingsofthe19thInternationalConferenceonNeuralInformationProcessingSystems,2006:985⁃992

[38] S􀅡nchezJ,PerronninF,MensinkT,etal.Imageclassifi⁃

cationwiththefishervector:theoryandpractice[J].In⁃ternationalJournalofComputerVision,2013,105(3):222⁃245

[39] JégouH,DouzeM,SchmidC,etal.Aggregatinglocalde⁃

scriptorsintoacompactimagerepresentation[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2010:3304⁃3311

[40] ArandjelovicR,GronatP,ToriiA,etal.NetVLAD:CNN

architectureforweaklysupervisedplacerecognition[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2016:5297⁃5307

[41] LinRC,XiaoJ,FanJP.NeXtVLAD:anefficientneural

networktoaggregateframe⁃levelfeaturesforlarge⁃scalevideoclassification[C]∥LectureNotesinComputerSci⁃ence,2019:206⁃218

[42] BabenkoA,SlesarevA,ChigorinA,etal.Neuralcodesfor

imageretrieval[C]∥ProceedingsoftheEuropeanCon⁃ferenceonComputerVision,2014:584⁃599

TANGCan,etal.Asurveyofimagefeaturedetectionandmatchingmethods.

唐灿,等.图像特征检测与匹配方法研究综述.

[43] BabenkoA,LempitskyV.Aggregatingdeepconvolutional

featuresforimageretrieval[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2016:4321⁃4329

[44] GordoA,Almaz􀅡nJ,RevaudJ,etal.End⁃to⁃endlearning

ofdeepvisualrepresentationsforimageretrieval[J].In⁃ternationalJournalofComputerVision,2017,124(2):237⁃254

[45] HusainSS,BoberM.REMAP:multi⁃layerentropy⁃guided

poolingofdenseCNNfeaturesforimageretrieval[J].IEEETransactionsonImageProcessing,2019,28(10):5201⁃5213

[46] YiKM,TrullsE,OnoY,etal.Learningtofindgoodcor⁃

respondences[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognition,2018:2666⁃2674

[47] SarlinPE,DeToneD,MalisiewiczT,etal.SuperGlue:

learningfeaturematchingwithgraphneuralnetworks[J].arXivpreprint,2019,arXiv:1911􀆰11763

[48] YiKM,TrullsE,LepetitV,etal.LIFT:learnedinvariant

featuretransform[C]∥IEEEEuropeanConferenceonComputerVision,2016:467⁃483

[49] OnoY,TrullsE,FuaP,etal.LF⁃Net:Learninglocalfea⁃

turesfromimages[C]∥AdvancesinNeuralInformationProcessingSystems,2018:6234⁃6244

[50] ShenXL,WangC,LiX,etal.RF⁃net:anend⁃to⁃endim⁃

agematchingnetworkbasedonreceptivefield[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognition,2019:8132⁃8140

[51] DeToneD,MalisiewiczT,RabinovichA.SuperPoint:self⁃

supervisedinterestpointdetectionanddescription[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognitionWorkshops,2018:337

[52] RevaudJ,WeinzaepfelP,deSouzaC,etal.R2D2:repeat⁃

ableandreliabledetectoranddescriptor[J].arXivpre⁃print,2019,arXiv:1906􀆰06195

[53] DusmanuM,RoccoI,PajdlaT,etal.D2⁃net:atrainable

CNNforjointdescriptionanddetectionoflocalfeatures[J].arXivpreprint,2019,arXiv:1905􀆰03561

[54] NohH,AraujoA,SimJ,etal.Large⁃scaleimageretrieval

withattentivedeeplocalfeatures[C]∥IEEEInternationalConferenceonComputerVision,2017:3456⁃3465

[55] TeichmannM,AraujoA,ZhuML,etal.Detect⁃to⁃

retrieve:efficientregionalaggregationforimagesearch[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognition,2019:5109⁃5118

[56] LuoZX,ShenTW,ZhouL,etal.ContextDesc:localde⁃

scriptoraugmentationwithcross⁃modalitycontext[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognition,2019:2527⁃2536

[57] SarlinPE,CadenaC,SiegwartR,etal.Fromcoarseto

fine:robusthierarchicallocalizationatlargescale[C]∥IEEE/CVFConferenceonComputerVisionandPatternRecognition,2019:12716⁃12725

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.学报(自然科学版),2020,12(3):261⁃273

JournalofNanjingUniversityofInformationScienceandTechnology(NaturalScienceEdition),2020,12(3):261⁃273

273

Asurveyofimagefeaturedetectionandmatchingmethods

1SchoolofComputerScienceandInformationEngineering,ChongqingTechnologyandBusinessUniversity,Chongqing 400067

TANGCan1 TANGLianggui1 LIUBo1

Abstract Fordecades,imagefeaturedetectionandmatchinghasbeenthefoundationofcomputervision.Withoutfeaturedetectionandmatching,therewouldbenovisualtaskssuchasSLAM,Sfm,AR,imageretrieval,imageregis⁃describesthelatestprogressinimagefeaturedetectionandmatchingaftertheintroductionofmachinelearningalgo⁃rithmledbydeeplearning.Thesurveyincludesallthekeypointssuchasfeaturepoints,localdescriptor,globalde⁃scriptor,matchingandoptimization,andend⁃to⁃endframework,andcomparesthemeritsanddemeritsofeachalgo⁃rithm.Insummary,facingtherequirementsofwidebaseline,real⁃time,andlowcomputingloaddetectionfromthein⁃dustrialsector,imagefeaturedetectionandmatchingisstillahardtask.Themultitaskingglobalframeworkwhichfu⁃sesfeaturepoints,localdescriptor,globaldescriptor,matchingandoptimizationhasbecomethetrendoffuturere⁃search.

Keywords imagefeaturedetection;descriptor;matchingalgorithm;deeplearning

tration,orpanoramicimages.Basedonthereviewofclassicdetectionalgorithmsinthepastdecades,thispaper

Copyright©博看网 www.bookan.com.cn. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务