欢迎光临本站!

索引压缩本章提要

来源:技术探讨    更新时间:2019-11-19 14:31:54    编辑:老王    浏览:105

  本章提要

  ·搜索引擎索引压缩包括对词典的压缩和对倒排列表的压缩。

  ·针对倒排列表的压缩可分为无损压缩和有损压缩两种,无损压缩更常用些,有损压缩只在特殊场合使用。

  ·一元编码和二进制编码是所有倒排列表压缩算法的基本构件,不论具体压缩算法如何,最终都要落实到这两种方法上。

  ·常用的压缩算法包括: Elias gamma算法、 Elias Delta算法、 Golomb算法、Rice算法、变长字节算法、 SimpleX系列算法和 PForDelta算法,在实际使用中往往会混合采用不同算法来获得更好的压缩效果。

  ·文档ID重排序通过文档聚类并重排文档ID编号来获得较高的索引压缩率。

  ·静态索引裁剪是一种有损压缩算法,通过抛弃一部分不重要的索引项来获得较好的压缩效果。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜