欢迎光临本站!

文档和用户兴趣模型的表达

来源:技术探讨    更新时间:2019-12-18 15:49:48    编辑:老王    浏览:485

  为了比较文档和用户兴趣,文档和用户兴趣模型的表达是一致的.文档的传统表达方式是矢量空间模型,其缺点是内容过滤时必须精确匹配文档,很难获得满意的结果.我们利用文档在不同领域中的概率分布来表达文档,其特点是避免文档间的精确匹配,从而极大地提高了搜索的精度.同样地,可以利用用户兴趣在不同领域中的概率分布来表达用户兴趣模型.

  矢量空间模型


  表达文档和用户兴趣比较直接的做法是利用文档特征.用户兴趣是多方面的,可以根据其浏览过的文档选取合适的主题词来表达用户兴趣[3].该方法需要一个训练的过程,首先从预定义好的主题词表中选取词来描述训练文档,为每个词都创建一个分类器,新文档将被每个分类器处理,对该文档有意义的词就赋予该文档.这样用户兴趣可以表示为一个主题词的矢量图片.png,其中kwi表示第i个主题词出现的次数或权重.矢量的维数n一般是固定的,这样就保证了文档和用户兴趣之间相似性计算的精度.

  不过,预先定义好主题词表需要做大量的工作,而且其覆盖的范围也有限,更简单的做法就是直接利用从文档中抽取的词来表达用户兴趣[4,5].该方法不局限于预定义好的主题词表,矢量的维数一般是不固定的,当然也可以指定一个固定的大小.这种方法因不能保证两个矢量之间存在很多相交的词,所以很难保证矢量相似性计算的精度.基于简单考虑,本文对比的就是这种方法.

  概率模型


  矢量空间模型只能表达用户感兴趣的主题词,不能很好地区别用户兴趣之间的差异.如果先建立一个领域分类模型,然后计算所有文档和用户兴趣在这个分类模型上的概率分布,用该概率分布来表达文档和用户兴趣就可以很好地体现用户兴趣的多样性,而且很容易实现.由于分类模型的类型个数远小于主题词的个数,这样,一方面提高了算法的运算速度,另一方面也提高了算法的搜索精度,因为用户在领域分类上更容易产生相似性.因此,概率模型比矢量空间模型能够更好地表达用户的兴趣和变化.

  我们采用Naïve Bayes方法来进行分类模型的训练[6],这里我们讨论文档分类模型,用户兴趣和文档的表达是一致的.假定领域类型的集合为图片.png,其中n为模型的大小,cj表示第j个领域,则文档d表示为一个

  条件概率的矢量:图片.png,其中文档d对类型cj的后验概率为

图片.png

  这里图片.png表示为

图片.png

  图片.png用下式估计:

图片.png

  假定文档的所有特征都独立出现,则图片.png可以表示为文档所有特征条件概率的乘积:

图片.png

  假定图片.png表示特征t在类cj中出现的次数,n(cj)为cj中全部特征出现的次数之和,|V|表示文档集中全部不同特征的数目,则根据Lidstone连续定律(它克服了Laplace连续定律对数目较大的分类产生较大偏差的问题),对一正数λ(λ一般取0.5,如果λ=1,则Lidstone定律与Laplace定律相同),图片.png的估计值可以表示为

图片.png

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜