欢迎光临本站!

移动视觉搜索相关技术及主要挑战-关键技术

来源:技术探讨    更新时间:2019-12-16 14:44:07    编辑:老王    浏览:240

  依据基本架构和流程可以看出,该领域研究涉及多方面的内容,如描述符(Descriptor)处理技术,视觉对象对匹配技术,视觉对象检索流程,视觉对象知识库建设等。有些问题已经得到一定程度的解决,但还有些问题的研究尚处于初级阶段,本节对目前国外相关工作进行总结和分析。

  描述符处理技术


  视觉对象的描述是计算机视觉领域的一个基本问题。视觉对象描述符处理技术主要包含三个关键技术:视觉对象特征表示,特征提取,描述符压缩问题。在带宽有限的移动互联网环境中,发送一张视觉对象的描述符信息,无疑会比传输一整张视觉对象的速度更快。

  视觉对象特征表示是MVS的关键环节,而采用的技术是局部特征描述符,其中尺度不变特征变化(Scale Invariant Feature Transform,SIFT)是较常用的一种表示方法。通过这种方法,尽管待搜索视觉对象的尺度、角度发生了较大扭曲,但通过对待搜索视觉对象与参考视觉对象的局部特征提取,进行最近邻比较分析,以及一致性校验,可以判断出两个对象是否匹配。

  纵览近三年国际相关领域的研究,可发现近期研究文献更多地关注描述符的压缩问题,研究的重心主要考虑在尽可能维持或提升描述符区分度的基础上,对描述符进行深度压缩,文献等均属于此类研究。从已有研究来看,视觉对象局部特征描述符压缩问题的研究大致可以划分成三类:一是采用降维的方法,如Ke和Sukthankar提出的PCA-SIFT、Brown和Hua等采用的LDA方法等均属于此类;二是采用量化视觉对象的方法,如Girod和Chandrasekhar等提出的ChoG方法属于此类;三是采用二进制码方法,如Torralba和Fergus等将描述符转化为紧凑的二进制码,这种方法在大规模移动视觉对象的搜索过程中较为流行。

  此外,移动视觉对象匹配与搜索,除了依赖局部特征描述符之外,还依赖局部特征的位置坐标信息。需要对匹配的视觉对象对的位置信息进行几何一致性校验,就需要对局部特征描述符位置进行位置坐标编码,因此视觉对象局部特征的位置坐标压缩是关键环节之一。

移动视觉搜索相关技术及主要挑战-关键技术

  视觉对象对匹配技术


  视觉对象对匹配首先需要对待搜索视觉对象与参考视觉对象的内容进行分析,判断两者所描述的场景、内容或外观等是否相同,通过计算后,若匹配,则输出视觉对象局部特征的位置信息。基于局部特征描述符处理的视觉对象对匹配流程如图3所示。

  从图3可看出,视觉对象对匹配方法主要分为两步:一是局部特征描述符匹配过程。在确定待搜索视觉对象与参考视觉对象的关键点匹配对(KeyPoint Matches)后,经过压缩、传输、解压缩等过程,进行特征匹配,然后通过几何一致性校验,确定关键点匹配对的内点(Inliers),一旦内点超过预先设置的固定值,则该视觉对象对可视为匹配对,最后,计算出局部特征描述符匹配对的位置坐标。二是全局特征描述符匹配过程。一旦无法检测出是否匹配的时候,就可进行全局特征描述符的相似性计算,检测出局部特征描述符匹配过程无法判断的匹配对。

  相比较而言,由于后者是建立在视觉对象的高阶统计特征基础上,故而更具区分度。两者的有机结合是目前大多数研究所推崇的方式,既能发挥局部特征表示、提取及压缩的优势,又能融合全局特征聚合的优点,因而也成为当前MVS系统中应用最多的方式。

  视觉对象检索流程


  MVS的目标是从大规模视觉对象数据集中快速精确地搜索、发现和获取与待搜索视觉对象相同或相关的信息。如果仅仅考虑搜索结果的精确度,忽视搜索时间、便捷性等因素,则可以将待搜索视觉对象与视觉对象知识库中的所有资源逐一对比、分析,再根据相似度排序,将排序结果返回。但这种方式显然是不正确的。

  视觉对象搜索流程与视觉对象对匹配过程是相关联的,也分为两个步骤,但方向却是相反的。首先,将待搜索视觉对象的全局特征与视觉对象知识库中预先计算好的参考视觉对象全局特征进行逐一对比,返回最优的视觉对象集合及其相关信息一览表。然后,将返回的搜索结果进行几何一致性校验,依据校验结果,对候选视觉对象及相关信息重新排序,将满足几何一致性约束的视觉对象及相关信息调至前列,从而实现性能与效率之间的有机平衡。

  视觉对象知识库建设


  移动视觉对象知识库(或称为数据库、数据集)的建设,可以使用户能快速便捷地将通过移动智能终端获取的现实世界中的真实对象与信息世界的移动视觉对象相关联,从而精确地获取移动互联网中的视觉对象及其关联信息,为用户提供新型的MVS服务。因此,构建怎样的移动视觉对象知识库,如何有效地管理、分析及利用与现实世界相对应的移动视觉对象知识库也是一个挑战性课题。目前,此类研究并不多,其中以Chandrasekhar和Chen等提供的斯坦福移动视觉搜索数据集最为著名,其他类似的还有Telecom和SudParis创建的关于Paris的图像数据库,南洋理工大学与北京大学 联 合 启 动ROSE(Rapid-Rich Object SearchLab)计 划,拟建立亚洲最大的移动视觉对象数据集。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜