欢迎光临本站!

高维语义空间降维-线性降维方法

来源:技术探讨    更新时间:2019-12-17 14:31:38    编辑:老王    浏览:323

  线性降维技术以其简单、快速、易于实现、不存在局部极值以及相对有效性的特点得到了十分广泛的应用。以下介绍几种典型的线性降维方法。

  (1)潜在语义索引(LatentSemanticIndex,LSI)。LSI基于向量空间模型(VectorSpaceModel,VSM)提出。VSM将高维数据对象描述为特征向量。LSI对空间内高维数据组成的特征矩阵进行奇异值分解,并舍弃后面绝对值很小的奇异值,进而将高维数据映射到低维空间,同时去除了语义相似性查询过程中的噪声干扰。

  LSI通过矩阵奇异值分解并人为设置阈值舍弃较小的奇异值,阈值的选取将直接影响到搜索的精度;同时由于矩阵分解计算量较大,当数据规模较大或维数过高时,LSI效率变低。针对LSI不能处理大规模数据的问题,RLSI[64]将根据数据对象的不同“主题”将“特征-对象”矩阵表示为“特征-主题”矩阵及“主题-对象”矩阵的乘积,然后对分解后的矩阵进行并行处理,可以有效提高系统的可扩展性及相似性搜索效率。

  (2)主成分分析(PrincipalComponentsAnalysis,PCA)。PCA方法将数据映射到一组新变量(主成分)上,并通过设置数据方差的阈值舍弃方差较少的主成分以达到降维的目的。PCA为一种坐标变换技术,新得到的维度(主成分)为原维度的线性组合,并尽可能反映数据原有的信息。但在降维过程中,主成分个数需人工选取,选取不当将导致信息丢失。

  (3)投影寻踪(ProjectionPursuit,PP)。投影寻踪[65]可以有效地分析和处理服从非正态分布的高维数据。它基于某种线性组合将高维数据投影到低维子空间中,并寻找能很好地反映原数据特征的最佳投影方向,从而能在低维空间对数据进行分析处理。PP方法降维过程中由于有大量的点积计算,当空间维度过高时降维效率变差,比较适用于数据量大但维度较低的数据集。

  (4)离散余弦变换(DiscreteCosineTransform,DCT)。DCT[66]的基本思想是在一定损失的情况下,采用较少数目的维数来表示高维数据。其基本原理为对于D维数据图片.png图片.png为ξ的DCT结果,若ε的第m项之后均为0(或绝对值相对首项很小),则只保留前m项,实现了数据的降维。高维数据经DCT处理后具有保距性,不影响数据间的拓扑结构。实际操作过程中需要人为控制舍弃部分的阈值,需要根据所能容忍的精度及系统效率综合考虑。

  (5)线性判别分析(LinearDiscriminantAnalysis,LDA)。LDA[67]也称为Fisher判别分析,其主要思想是寻找一个投影矩阵,将高维数据投影到低维空间,同时Fisher准则确保了在低维空间中同类数据的区别最小化,异类数据的区别最大化,提高了不同类别之间数据的可分性。LDA是一种有监督降维方法,可应用于现实中高维数据的分类工作。但是LDA不能灵活调整分解矩阵的大小,当类别中心有重叠时分类效果较差。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜