欢迎光临本站!

搜索引擎查询系统-生成搜索结果页

来源:技术探讨    更新时间:2019-12-12 14:25:52    编辑:老王    浏览:293

  对搜索引擎的用户来说,搜索结果页是离其最近的部分。搜索结果页的主体包含与查询的相关网页链接(URL)和与查询相关的自动摘要( Automatic Summary),这两个部分的合成还需要一些额外的计算。

  生成搜索结果页


  第五章提到索引系统中局部倒排文件的分布式部署,如图6-20所示。

  这种设计一方面实现了并发的检索,一方面提高了可靠性。正是由于索引结点的这种分布式部署,实际的检索也是在索引结点内部完成。每个索引结点增加一个检素模块从而变成了一个检索结点,一次检索请求引起的计算,直到最后的网页结果生成经历了如图6-21的过程,图中两处检索代理实际上是同一个系统,只是为了方便分开表示。

搜索引擎查询系统-生成搜索结果页

搜索引擎查询系统-生成搜索结果页

  在图6-21所示的搜索结果页生成全过程中主要经历了以下几个步骤。

  (1)检索请求发给检索代理,检索代理进行查询词分词。

  (2)查询词分词后的结果(图中用 query表示)同时发往各个检索结点。注意这里的检索结点因为具有内部检索功能,因此和图6-20中的索引结点不完全相同。通过检索模块的计算,各个检索结点将各自本地倒排文件中检索出的文档列表发给检索代理(不同的索引结点返回不同的文档列表,分别用 doclistA,doclistB和 doclistc表示)

  (3)检索代理重新排序来自各个检索结点的文档,取出排名靠前的n个结果文档作为结果页拼接的候选文档。

  (4)通过自动摘要模块从网页库中取出这n个文档的摘要信息。

  (5)将(3)和(4)的结果合并,动态生成搜索结果页。

  计算出一个搜索结果页需要历经如此复杂的步骤和操作,个在线的搜索引擎每秒都需要响应相当多的检索请求。如果每次检索请求都经历这样的步骤,显然是不够经济的。与操作系统的缓存设计一样,搜索引擎也为搜索结果页设计缓存。用来减少重复计算,提高效率,下一节将讨论关于搜索引擎结果页缓存的些设计。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜