欢迎光临本站!

实验结果

来源:技术探讨    更新时间:2019-12-18 16:10:34    编辑:老王    浏览:1251

  本节介绍实验采用的数据集和实验评价标准,并进行实验分析。为了测试算法的性能,我们建立了一个个性化服务实验系统。在该系统中,我们实现了本文的算法,并通过跟踪用户的行为来学习用户的兴趣。

  个性化服务实验系统


  实验系统主要包括4个组成部分:浏览器插件、个人管理器、用户模型学习器和信息过滤器,如图1所示。浏览器插件主要是为用户提供一个便捷的工具,在用户配置好自己的登录信息之后,可以利用它直接实现个性化搜索而不必登录服务器。此外,浏览器插件还会主动收集用户信息并发送到服务器上。个人管理器的作用是为用户提供一个自我管理的平台,用户利用它可以管理自己的个人信息、个人兴趣和个人书签。用户模型学习器的作用是维护用户兴趣模型,它分析用户的信息和书签,并跟踪用户的行为来学习用户的兴趣。信息过滤器的作用是实现基于内容过滤的个性化搜索和推荐。图2是实验系统的一个快照。

实验结果

  与其他个性化服务系统的不同点在于:

  ①体系结构的不同。我们的系统分布在客户端和服务器端,可以跟踪用户在客户端的行为,也不影响用户的浏览和系统性能。

  ②用户兴趣模型的不同。我们用概率模型来表达用户的兴趣,并通过跟踪用户的行为来动态修改用户兴趣模型。

  实验数据集


  实验的数据集来自INSPEC科学文摘数据库,由于科学论文的关键词组和分类都比较明确,所以能获得比较清晰的结果。我们采用了INSPEC的分类体系,只选择计算机软件学科,分为45个类。我们从INSPEC数据库中选取了涉及计算机软件的2 000多篇论文摘要来训练领域分类模型,大小为1。9MB。

  在实验系统中,我们允许用户主动修改自己的兴趣,也通过跟踪用户的行为(比如添加书签、下载文档、浏览摘要、忽略文档和删除书签等)来动态修改用户的兴趣,然后根据用户的查询请求推荐与其兴趣相关的论文。

  实验评价标准


  我们采用信息检索领域广泛使用的查准率(precision)和召回率(recall)来评价实验结果。查准率和召回率的定义如下:

实验结果

  我们计算召回率为0。2,0。4,0。6,0。8和1时的查准率,平均精度定义为这5个点上的查准率的平均值。召回率为0时的精度是随意给定的,一般会稍微大于或等于召回率为0。2时的查准率。实验曲线类似于ROC(receiver operating characteristic)曲线,曲线下的面积越大,说明算法的精度越高。

  实验分析


  我们对比了矢量空间模型和概率模型所表达的用户兴趣模型对搜索算法的影响。如图3所示,概率模型的平均精度要远大于矢量空间模型的平均精度,主要原因在于基于矢量空间模型的内容过滤需要进行精确匹配,而文档和用户兴趣之间相同关键词的个数一般都很少,所以会造成平均精度急剧下降。概率模型则避免了这个问题。它利用文档和用户兴趣在领域分类模型上的概率分布间接计算相似性,从而提高了搜索的平均精度。

实验结果

上一篇:基于内容的过滤

下一篇:总结与展望

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜