欢迎光临本站!

基于日志的搜索引擎用户的行为分析_独立的查询分析

来源:技术探讨    更新时间:2019-12-19 14:44:59    编辑:老王    浏览:2639

  实验所使用日志包括搜狗搜索引擎在2006年2月1日至2月28日的28天内的所有查询。其中非空查询共45 745 985个,含非重复查询共有4 345 557个,session个数为26 255 952个。

  查询的长度

  查询的长度主要指的是用户提交的查询中包含几个词语或字(用空格隔开的),分析结果中,长度不超过3个词的查询占了总查询数的93.15%,平均长度为1.85个词,这说明用户输入的查询通常都比较短。而且平均长度与CraigSilverstein等人[4]分析的英文查询长度结果的2.35个词相比更短,这说明中文搜索引擎得到的用户需求信息更少,需要对用户需求有更多的分析和经验,才能更加准确地返回用户需求的信息。

  查询的频度

  查询的频度是指在整个2006年2月份的网络搜索日志中,该查询一共被提交过多少次。对于出现次数最多的前150个查询,我们将其出现次数及排名绘成图2。

基于日志的搜索引擎用户的行为分析_独立的查询分析

  从图2中可以看出少数查询出现的次数很多,而我们得到的结果是:出现次数大于100次的query总数为35177个,占非重复查询总数的0.8%,但其总的出现次数却为59 736 863次,占总查询数目的近70%。这说明在搜索引擎每天处理的大量查询中,有很多查询都是重复的,很少一部分查询就占了用户需求的大部分。如果搜索引擎能够通过某些方法提高这少部分经常出现的词的查询质量,就能使整体的检索质量提高不少。同时也证明了在搜索引擎设计中引入缓存(cache)机制或人为干涉的必要性与可行性。

  而在对查询term(term指的是用户提交的查询中被空格分隔开的单个的词或字)的统计中发现,在出现次数最多(均大于500000)的12个term中,有50%的term与图片相关,表明现在人们对图片信息的需求量越来越大,因此搜索引擎在图片搜索方面应予以重视。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜