欢迎光临本站!

高维数据索引

来源:技术探讨    更新时间:2019-12-17 14:03:28    编辑:老王    浏览:672

  高维数据,即高维语义空间中的数据,通常表示为高维点或高维向量。高维空间内数据通常表现出以下的特点:(1)分布不均匀。随着空间维度的增加,数据趋于空间表面分布[8];(2)分布稀疏性。高维数据在空间内分布稀疏,很难对有相似语义的数据信息进行有效的组织管理;(3)等距性。

  由于高维数据趋于空间表面分布,从给定查询点到其近邻点和远邻点的距离随着维度的增加趋于相等[9];(4)动态性。伴随着数据的更新,随时有高维数据进入或离开语义空间;(5)数据海量性。

  语义空间内网络数据量庞大;(6)时间代价大。操作高维数据所花费的时间一般远高于传统数据;(7)不能排序。无法对高维数据进行有效的线性排序以充分体现其在空间中的相对位置关系。

  为了实现高效的基于语义的相似性搜索,学者们提出了多种高维索引结构,用以在相似性搜索过程中修剪掉与给定用户查询语义无关的数据对象,减少搜索空间,缩短查询时间,提高搜索效率。根据构建高维索引所采用的数据划分标准及相似度量的不同,高维索引可分为向量空间索引结构和度量空间索引结构[10],如图2。

高维数据索引

  两者之间的区别与联系体现为:(1)向量空间可看作是带有坐标信息的度量空间,在一定条件下可以相互转换。当在度量空间中只利用一个给定的距离函数获取数据间距离信息时,向量空间则转换成了度量空间;而利用快速映射(FASTMAP)算法可以将度量空间转换为较低维的向量空间;(2)在相似性查询过程中,度量空间索引仅仅利用基于距离函数的三角不等式性质;而向量空间索引则可以同时利用数据在空间中的位置(坐标)信息。

  向量空间索引利用了更多的信息,比度量空间索引具有更好的修剪及搜索效率。

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜