欢迎光临本站!

索引系统

来源:技术探讨    更新时间:2019-12-12 09:42:57    编辑:老王    浏览:263

  在搜索引擎的4大系统中,第3个系统称为“索引系统”。该系统就好像搜索引擎的数据大本营,在这里存储了并索引了数以亿计的网页。在搜索引擎早期的发展中,能够索引的网页数量代表了整个行业的技术发展水平。由于需要支持多用户同时检索索引系统还必须提供低于秒级的检索时间,因此“存得下”和“查得快”是围绕本节的重要话题。

  与前几个章节一样,一起来做一下热身活动,了解一些基本概念。

  信息


  信息是能够被传达和理解的消息,是通过学习和经历获得的知识,是用来做出判断的一组事实 WordNet],不同的角度上对信息具有不同的解释。这里我们认为信息就是结构化的网页数据,即一组有价值的数据的集合。

  索引


  索引也是一种信息,可以说是信息的信息,或者说是描述信息的信息。例如,书中包含的目录。其中每一条目就是一个索引,用来标识某个章节的页码。帮助读者快速浏览,索引就是这样一种短小精炼的检索信息的信息。

  倒排索引、倒排表、临时倒排文件、最终倒排文件


  为了便于理解整个章节笔者做出如下定义:

  倒排表是指存放在内存中的能够追加倒排记录的倒排索引。倒排表是迷你的倒排索引。

  临时倒排文件是指存放在磁盘中,以文件的形式存储的不能够追加倒排记录的倒排索引。临时倒排文件是中等规模的倒排索引。

  最终倒排文件是指由存放在磁盘中,以文件的形式存储的临时倒排文件归并得到的倒排索引。最终倒排文件是较大规模的倒排索引。

  倒排索引作为抽象概念,而倒排表、临时倒排文件、最终倒排文件是倒排索引的三种不同的表现形式。

  其他概念


  索引部分概念很多,因此本章第二节-第四节分别介绍全文检索、文档编号、正排索引、倒排索引的基本概念。在集中理解索引系统的主要概念后,接下来再了解索引创建中的一些计算细节

上一篇:分析系统结构图

下一篇:全文检索

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜