欢迎光临本站!

第四节 倒排文件缓存机制

来源:技术探讨    更新时间:2019-12-06 11:32:02    编辑:老王    浏览:529

  一、 引言

  缓存技术是提高系统性能和可扩展性的一种重要手段,在计算机各个应用领域都有广泛的应用。如何有效的在搜索引擎检索服务系统中使用缓存技术也是近年来学术界广泛关注的问题。

  缓存技术的有效性建立在被缓存对象访问序列存在的局部性特征上。与操作系统内存管理、数据库系统和We b代理缓存这些领域大量的研究相比,搜索引擎检索系统上的缓存研究相对较少。它们之间有共性,但由于被缓存对象特征和对象访问模式的差异,又各自具有自己的特点。搜索引擎检索系统中通常被研究的缓存对象可分为三种,即查询结果、布尔操作的中间结果、以及倒排文件。文献[Xie and O'Hallaron,2002],[Wang, et al.,2001]详细分析了搜索引擎用户查询日志,发现用户查询具有很强的局部性,提出了缓存查询结果的可行性。在文献[Wang, et al.,2001],[Markatos,2001],[Saraiva, et al.,2001]中,进一步研究了缓存替换算法、缓存大小等因素对系统性能的影响。天网在[Wang, et al.,2001]的基础上实现了查询结果缓存,有效的提高了系统性能。文献[Chidlovskii, et al.,1999]提出语义缓存,把布尔查询的中间结果作为缓存对象,并利用查询结果间的语义关系加速后续查询的执行。这种方法可以充分利用不同查询之间的相关性提高缓存命中率,缺点是限制在布尔查询上,可能影响结果相关性排序。第三种是倒排文件的缓存,用户查询经过查询器执行,转换为对倒排文件数据的访问序列,这些数据也可以作为缓存对象。[Jonsson, et al.,1998]研究了IR背景下用户交互式查询的倒排文件缓存与查询执行结合的方法,[Saraiva, et al.,2001]研究了一个实际搜索引擎(TodoBR)中的倒排文件缓存对系统效率的影响。

  下面我们基于天网的实际运行数据,重点讨论倒排文件缓存的优化设计。与[Saraiva, et al.,2001]相比一个差异在于它使用的是过滤向量空间模型查询处理技术[Persin, et al.,1996],而天网的查询处理考虑查询词位置邻近关系,使用带位置数据的倒排索引,并使用索引压缩和块随机访问技术提高性能[Navarro, et al.,2000]。这种查询处理技术的不同,导致所产生的访问倒排文件数据序列性质的差异。文献中对倒排文件缓存的研究,基本以固定大小的页面为单位,忽略了倒排文件访问数据是变长这一特点;并且缺乏替换策略、数据组织对缓存效率影响的分析。本节就如下问题展开讨论。

  1)缓存性能评估的指标如何选取?

  2)倒排文件缓存与操作系统的文件缓存相比是否有优势?

  3)倒排文件的数据组织方式对缓存效率及系统性能的影响如何?


评论区

表情

共1条评论
  • 老王杂货铺网友

    缓存技术是提高系统性能和可扩展性的一种重要手段,在计算机各个应用领域都有广泛的应用。如何有效的在搜索引擎检索服务系统中使用缓存技术也是近年来学术界广泛关注的问题。

    2019-10-30 16:55:06 回复

相关内容

点击排行

随机新闻

评论排行榜