欢迎光临本站!

基于内容的过滤

来源:技术探讨    更新时间:2019-12-18 16:06:17    编辑:老王    浏览:574

  在表示好文档和用户兴趣以后,可以利用文档和用户兴趣的相似性来过滤文档。本节介绍矢量空间模型和概率模型的相似性计算方法以及基于内容过滤的个性化搜索算法。

  相似性计算方法


  对矢量空间模型来说,相似性计算的传统做法是计算矢量间的余弦相似度(cosine similarity),用户u和文档d的相似性可以定义如下:

基于内容的过滤

  而对概率模型来说,直接计算矢量间的余弦相似度是不合适的,为了体现用户兴趣的多样性,我们提出了下面的命题[8]。

  命题1。 假定用户u在给定分类模型C={c1,c2,。。。,cn}时条件独立于文档d,则文档d推荐给用户u的概率可以表示为

基于内容的过滤

  证明:由全概率公式可知,

基于内容的过滤

  根据假定,用户u在给定分类模型C时条件独立于文档d,所以有p(u|d,cj)=p(u|cj),进而得出p(u,d|cj)=p(u|cj)p(d|cj),因此,式(10)可以变换为

基于内容的过滤

  根据p(u|d)=p(u,d)/p(d),式(11)可以变换为

基于内容的过滤

  由于p(u|cj)p(cj)=p(u)p(cj|u),且p(d|cj)/p(d)=p(cj|d)/p(cj),式(12)最后变换为式(9)。

  根据命题1的结论,我们可以计算一篇文档推荐给用户的概率。其意义在于将概率模型的相似性计算问题转化为求条件概率的问题,体现了用户兴趣的多样性。

  个性化搜索算法


  根据命题1的结论,如果对一个搜索引擎产生的结果集按推荐概率进行重新排序,就能实现基于内容过滤的个性化搜索。值得注意的是,式(9)中的p(u)是不用计算的,因为p(u)不影响推荐概率之间的比较。下面是基于该方法的个性化搜索算法的详细描述。

  算法1。 基于内容过滤的个性化搜索算法。

  输入:领域分类模型,用户兴趣模型,查询关键词,一个搜索引擎。

  输出:个性化搜索的结果。

  (1) 根据查询关键词,利用搜索引擎产生初步的搜索结果集X。

  (2) 置迭代次数i=0。

  (3) 对集合X中的第i篇文档,利用式(1)计算其在领域分类模型上的概率分布。

  (4) 利用式(9)计算文档i推荐给当前用户的概率,加入列表Y。

  (5) 如果文档i是集合X中最后一篇文档,转(6);否则,置i=i+1,返回(3)。

  (6) 根据列表Y中的概率由大到小排序文档并输出。

  该算法实际上是基于另一个搜索引擎,所以对搜索结果中的每一篇文档都必须计算其在领域分类模型上的概率分布,这会极大地影响算法的性能。如果该搜索引擎能够预先计算好每一篇文档在领域分类模型上的概率分布,则算法的性能会得到很大的提高,从而满足实时处理的需要。

上一篇:用户兴趣模型的更新

下一篇:实验结果

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜