欢迎光临本站!

搜索引擎原理技术与系统 后记

来源:技术探讨    更新时间:2019-11-05 16:23:41    编辑:老王    浏览:363

  浩如烟海的互联网信息推动了搜索引擎的普及和应用,从而也促进了搜索引擎技术的蓬勃发展,这从近几年来WWW学术年会上总有大量相关论文发表可见一斑。Google在短短的几年里在全世界范围的成功,在展示搜索引擎技术巨大潜力的同时,也似乎给人们带来了一种“赢家通吃”的认识;不少人认为互联网上只需要为数不多的几个搜索引擎。在现在常见的应用模式下,在大规模通用搜索引擎的意义上,我们也同意这样的认识。但如果有了创新的应用模式,针对不同的应用需求,搜索引擎可能就会有一种新的、更加广阔的发展空间。我们拭目以待,同时也在不断追求。

  为此,我们不妨暂时离开身在其中的互联网。当我们越走越远的时候,万千气象逐渐淡开去,但留下了E-mail,We b浏览,搜索引擎。这里不谈E-mail。我们能否有一种将We b浏览和搜索引擎放在一起考察的视角,从而有可能解释为什么搜索引擎能如此成功,引导我们思考还可能有什么样的东西也可能取得很大成功?

搜索引擎原理技术与系统 后记

  上图就是这样一种视角。由一篇篇相互链接的网页构成了一张We b,它使得人们能够在上面浏览。而每一篇网页被变成了一个词的集合以后,将它们集中起来,就构成了搜索引擎工作的数据基础。如果说,原始的网页自然具有最丰富的语义,那么当它变成了一个词的集合以后,语义就“丧失殆尽”了。因此我们可以讲搜索引擎作用的对象和We b浏览作用的对象是两个语义极端。而引导We b浏览的是地址(URL),引导搜索引擎工作的是内容(query),又使得我们可以认为它们是两个服务的极端。进一步地,如果认为地址是没什么语义的,而查询词是有一定语义的,那么又能看到没什么语义的对象和丰富语义的对象相结合形成了有意义的信息服务(We b浏览),而相对有语义的对象在相对语义很弱的对象上也可以形成有意义的信息服务(搜索引擎)。从这个角度看问题,就使我们很容易去想是否能够发展出某种折衷的服务来:其基础数据的语义在网页和词语集合之间,服务引导的语义在地址和自由词语之间。

  这样,我们就有了一个很大的发挥想象力的空间。

  同时我们还看到,搜索引擎的发展和应用也为人们针对海量网络信息的相关研究提供了一个生动的背景。如同在第一章引论中提到的,我们在不断发展“天网”搜索引擎的过程中,注意到互联网上的信息除了无比丰富外,还具有如下特征:

  ·信息发布者和享用者的数量差不多是同一个数量级的;这和诸如报纸、书籍、电视等传统媒体大大不同;

  ·相当一部分内容的产生是比较随意的,没有经过专业的编辑整理,发布人员也不需要负什么责任;

  ·互联网上的信息在时间上具有流逝性,网页的出现和消失是一个动态的过程;例如我们现在对下面的问题难以有一个清楚地回答:1995年中国互联网上都有过些什么内容?

  ·网页和其他互联网信息与生俱来就是数字化、网络化的,因此十分便于获取、处理和二次增值开发。

  对这些特征的认识促使我们产生了一个构想,即全面搜集中国互联网上的信息,对它们进行高效的组织,并且提供超越搜索引擎范畴的信息服务。我们简称这个构想为“北大燕穹”,它激发了一系列相关的科研和系统建设的实践1。

  我们认为,随着互联网深入到社会的各个角落,网络信息内容的全面性、流逝性和随意性使其成为一类珍贵的社会资源,对互联网信息的研究有可能成为研究我们社会的一个独特的途径。因此,从2001年底开始,利用天网技术,我们开始全面地搜集和保存中国互联网上的网页信息资源,建设形成了“中国互联网信息博物馆”。这是一个动态成长的大规模互联网网页信息历史档案,现收藏有从2001年以来的约7亿中国互联网上的网页,容量8TB,而且以每天几十万到几百万左右网页的速度增加;还收藏有从2001年以来的约4000万条搜索引擎访问日志,而且以每天20万左右的速度增加。“北大燕穹”就是围绕“中国互联网信息博物馆”的建设、发展和应用的活动和成果的总称。

  在这样一个海量信息资源库之上,人们不但能够方便地浏览中国互联网信息的历史内容,还能开展各种研究工作。语言学,经济学,社会学,新闻学,管理学等领域的学者都有可能从中发现自己感兴趣的宝藏,发展出新的研究方法,取得创新的成果。本书第十三章第二节的内容就是一个实例。另有一些相关的工作见参考文献[Li and Zhu,2003]。

  “中国互联网信息博物馆”向各相关领域的研究人员开放资源,欢迎大家一起来开采这样一个巨大的矿藏。

  时间将证明,“中国互联网信息博物馆”将在研究中国互联网信息建设的历程及其对我们社会的影响方面发挥重要的作用。我们也设想未来会有一本著述,展示在“中国互联网信息博物馆”上的多学科研究成果。

上一篇:搜索引擎:原理,技术与系统 参考文献

下一篇:已经是最后一篇

评论区

表情

共2条评论

相关内容

点击排行

随机新闻

评论排行榜