欢迎光临本站!

为什么搜索引擎能够返回那么多的查询结果

来源:技术探讨    更新时间:2019-12-12 14:49:32    编辑:老王    浏览:209

  笔者在 Google搜索引擎中查询“北京奥运”,搜索结果指示,共计查询到6370000个结果。看着搜索结果页有无穷的页码显示,不禁叹服当今信息大爆炸带来的巨量数据规模。为收集全这些信息,搜索引擎做的工作主要从两个方面解答。

  1.下载系统抓取了几乎全部的万维网网页

  下载系统可以说是搜索引擎的主要驱动源,是搜索引擎发展最为成熟的系统,目前主流的搜索引擎服务提供商在大规模网页下载上已经做到极致。下载系统基本具备了与万维网的变化保持同步的能力,它能够发现万维网上几乎所有网页的消亡、变更和新增,并在网页库中做相应的更新,实时地与万维网的变化保持同步。

  2.索引系统支持存放大量网页的能力

  万维网的网页可以说是存放在数以万计的Web服务器上,抓取的难度还没有那么大。但是索引如此多的网页对搜索引擎的索引系统无疑是巨大的挑战,索引系统具有超强的分布存储能力将网页中具有检索价值的信息(锚文本、标题、正文、URL、文档编号,以及关键词出现位置等)充分压缩,并分布式地存放在多台主机的多个硬盘上。关于分布式的设计本书只是初步提到例如多个索引结点的设计等。分布式的实现主要是多机合作的协议设计,以及一些不同索引结点的分工设计技巧,有兴趣的读者可以参考 SIGIR会议[ Sigir的一些相关论文。

  综上,对于搜索引擎来说,对于海量的网页数据必须做到“抓得了存得下”因此下载系统和索引系统共同满足了搜索引擎“查得全”的需求。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜