欢迎光临本站!

搜索引擎如何大规模存储网页的

来源:技术探讨    更新时间:2019-12-12 14:50:49    编辑:老王    浏览:205

  万维网网页的数量是海量的,对搜索引擎来说,大规模网页存储技术是整个领域的巨大成就。在这项主要的技术瓶颈解决后,搜索引擎才能够完成其他关于效果和效率改进的工作。在前面的章节中我们都陆续地提到过一些技术,这里将它们串联起来介绍。

  在日常生活中,如果有很多产品需要保存,通常有如下几种方法。

  (1)扩大仓库。

  (2)产品放置得尽可能紧凑。

  (3)保证重要产品优先存放,可以适当丢弃一些廉价产品。

  搜索引擎也采用了类似的思想。

  对于扩大仓库的方法,搜索引擎采用了分布式的存储方式。一台机器挂载多块硬盘,多台这样的机器同时存储。因此实际使用的硬盘数量增加,则大大有利于存储更多的信息。第五章中提到的多索引结点策略,第三章中提到的多爬虫合作下载策略,都是这种方法的集中体现。这种方法可以说是最为容易想到,效果也最明显的方法。然而这种粗放式的方法带来的是成本上的巨大耗费,是不是有一些更加经济的方法呢?

  产品放置紧凑,在这里可以理解为果用更有效的压缩方法。信息的冗余总是巨大的,第五章中提到的游程编码,继而使用Variable Byte Coding编码方式可以大大压缩文档编号,类似的压缩在搜索引擎各个涉及存储的设计中大量采用。例如对网页的存储其实并不是存储原始网页源代码(HTML语言描述),而是通过分析系统进行了搜索引擎关心的各个域的抽取,最终以网页对象的方式存储,存储的开销也大大降低了。和扩大仓库的粗放方法相比,这种方法充分挖掘存储潜力,使得以有限的存储资源存放更多网页的方法更加实际有效。

  万维网上存在各种各样的网页,大量的垃圾网页和低质量的网页并不是查询的重点因此对这些网页进行存储是没有必要的而如何区分哪些网页是高质量的,哪些网页是低质量的,主要由分析系统来完成。例如,垃圾网页和作弊网页识别等。这些虽然没有在分析系统中展开,但是分析系统为减少低质量网页做出了默默的贡献。因此,海量的万维网网页中只有那些质量较高的正规的网页才会被收录。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜