欢迎光临本站!

分析系统结构图

来源:技术探讨    更新时间:2019-12-12 09:37:35    编辑:老王    浏览:233

  分析系统在搜索引擎的架构中承担了网页结构化、网页消重、文本分词及 PageRank计算4项基本任务。通过前面的分块学习最后通过一个分析系统结构图来全面了解分析系统的运作方式。分析系统结构图如图4-20所示。

分析系统结构图

  其中Page库是下载系统通过爬虫下载到的原始网页分析系统通过以下步骤完成对这些网页的分析工作。

  (1)经过一个网页结构化的过程,包括建立标签树并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程。

  (2)网页消重模块丢弃冗余的页面,相似或相同的网页仅保留一个传给分词模块。

  (3)文本分词将正文切分成以词汇为单位的集合。

  (4)将分析的结果发往索引模块,进行索引入库

  以上4个步骤中网页结构化、消重、分词这三项工作同步计算,因此速度非常快。仅 Page ank的计算非常耗时,而且必须积累一定数据后才能生成一次数据(这里信息抽取过程中得到的网页链接信息发往 PageRank计算服务器)。由于执行一次Page Rank的计算代价极大,因此采用离线计算方法。离线计算的结果是一个 PageRank列表,其中包含每个网页的一个 PageRank值。该值越高,网页的重要性越高,在检索时就越容易被检索到。在索引系统中会利用该 PageRank值对文档列表索引项的先后顺序产生影响,也就是越是重要的网页( PageRank值高)在索引中越能够占据有利的位置。

  回顾本章,网页分析系统的工作层层深入。除了第1步分析工作是为本层服务,其余的分析工作包括网页消重、分词及PageRank的计算都是为了索引系统查询系统服务,因此只有在深入了解索引系统和查询系统的原理后我们才能深刻理解这些分析系统工作的重大意义。接下来我们将继续走进搜索引擎的索引系统中,领略索引系统的魅力。

上一篇:Page Rank

下一篇:索引系统

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜