欢迎光临本站!

搜索引擎的未来发展

来源:技术探讨    更新时间:2019-12-12 14:58:27    编辑:老王    浏览:322

  当今搜索引擎的各项技术日趋成熟,业界也逐渐将目光从搜索技术本身转移到搜索产品的多样化上,出现了音乐搜索、视频搜索及图书搜索等一系列的搜索产品。相比之下搜索技术仍然在寻求新的突破,本节将从两个方面来介绍搜索引擎未来的发展

  新兴的搜索产品


  笔者将当今新兴的搜索产品主要分为3类,即多媒体搜索、网页级垂直搜索和对象级垂直搜索。

  在这些新兴的搜索产品中,多媒体搜索应该算是其中的“老人"。目前图片搜索、音乐搜索和视频搜索均已被人们所熟知,例如在 Google图片搜索中搜索" apple"和在 Sogou音乐搜索中搜索“白桦林”,结果分别如图7-2和图7-3所示。

  视频搜索也逐渐成为业界追逐的焦点,但是由于存在一些特有的技术难度,所以至今还没有较为成熟的视频搜索产品。

搜索引擎的未来发展

搜索引擎的未来发展

  网页级、对象级和垂直搜索究竟是什么关系呢?图74所示恰当地描述了这种关系网页级和对象级是针对搜索粒度而言的,对象级特指那些针对对象属性进行的搜索;而网页级搜索并没有将具体的网页内容对象化。

搜索引擎的未来发展

  一般认为 Google的网页搜索属于网页级的通用搜索这就是本书介绍的传统意义上的搜索引擎,其系统结构和技术要点目前均已达到较为成熟的水平。

  GoogleScholar属于网页级的垂直搜索垂直搜索和通用搜索的主要区别在于其限定了某个领域、行业或者话题等。搜索的人群都是固定局限的,例如 GoogleScholar这样的学术搜索面向的是工程技术人员和科研人员

  Libra属于对象级的垂直搜索,目前对象级的搜索是研究的热点,微软公司的 Libra在这方面做出了积极的尝试,推出了 Libra这样的论文搜索。由于论文的属性有限,例如作者、摘要及引用等,所以特别适合对象化搜索。

  对象级通用搜索目前依然没有成熟产品,这种搜索需要涉及大量信息检索中信息抽取、模式识别及人工智能等高端技术,因而目前仍然没有显著突破,几乎还是一个未开垦的地带。

  搜索技术的未来


  搜索技术在“效率和“效果”上已分上下,由于计算机硬件的高速发展,搜索效率已经远远走在了前面。目前搜索技术最让人不满意的还是搜索效果,因此搜索技术的未来依然是效果。笔者认为,改善效果主要有如下3个方面。

  (1)理解万维网

  (2)理解文档

  (3)理解用户

  万维网瞬息万变,如何保持和万维网变化的同步是爬虫最为头疼的问题,至今依然没有很好的解决方案。在实际使用搜索引擎时还会出现有搜索结果链接“打不开”的情况,在业界称之为死链"。万维网的信息质量层次不齐,各种垃圾网页及病毒网页层出不穷。在使用搜索引擎时,不断地会打开那些垃圾网页及病毒网页,这都是由于分析系统的分析能力还有待提高,可以说理解万维网是当前也是将来业界的一个主要攻关的技术难点,为此需要引入统计推断及模式识别等技术。

  这里说的理解文档,也可以说是理解网页,目前取得了一定的成就。例如 PageRank就是通过链接关系理解网页的重要性,通过分词及向量空间模型理解文档的意义等。然而在理解文档上还远远不够,至今还不能对这些文档进行无人工参与并以各种粒度分类网页,甚至分词的水平还有待提高。理解文档才能取得较好的搜索效果,这方面潜力巨大。

  理解用户主要从理解用户查询词,从用户的查询历史了解用户的搜索兴趣等。只有一方面理解用户,一方面理解文档,搜索引擎才能知道哪些文档和用户的查询词最匹配。例如,一个用户搜索“清华大学”,搜索引擎发现这个搜索请求来自台湾省(通过IP地址识别),因此推测其很可能是搜索台湾省的清华大学,因而给出台湾省清华大学的搜索结果。可见抓住一切可能具有的用户信息,充分理解用户是改善搜索效果的重要方法。

  信息的载体是文字,由于普通人搜索的内容一般是本国语言的信息。所以作为搜索引擎这样的以信息聚合技术为鲜明特点的软件产品,还需要积极打破这种语言的限制。 Google在这方面做出了一些有意义的尝试,然而机器自动翻译属于世界级难题。不过可以预见,如果将来的某一天搜索引擎能够打破这种语言的限制,那么由于搜索引擎的翻译,我们甚至可以不懂法语也可以了解法国巴黎街头发生的一件好人好事,这将是多么美妙。

  综上所述,搜索引擎还需要开发更多的搜索产品,还需要修炼出更加强劲的搜索技术。考虑到搜索引擎仅10年的历史就能够取得现在的辉煌成就,我们有理由期待在不远的将来,搜索引擎还会给人们带来更多的惊喜。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜