欢迎光临本站!

基于语义的网络大数据组织与搜索

来源:技术探讨    更新时间:2019-12-17 14:00:53    编辑:老王    浏览:639

  随着信息技术的飞速发展,网络空间中出现海量异构的数据资源,网络大数据逐渐引起了人们的关注。从网络大数据中发现并获取用户所需的数据资源,需要对网络大数据进行有效地组织管理并进行基于数据语义的相似搜索。为此,需要从网络数据资源中抽取其特征/属性构造高维语义空间,并将数据资源及用户查询信息抽象为语义空间中的特征向量或高维点,进而通过比较特征向量间夹角余弦值或高维点之间的距离来衡量语义相似性。

  高维索引技术可以对高维语义空间中的数据资源进行有效组织管理,实现基于数据语义的相似性搜索;而降维技术可以消除语义空间维数过高所引发的“维灾”影响。文中对现有的高维数据索引及降维技术进行了系统的综述,然后介绍了现有的基于分布式技术实现高维数据语义相似性搜索的研究工作,最后并展望了未来工作。

  近年来,随着互联网、物联网、社交网络、云计算等信息技术的发展,网络空间中的数据资源正以前所未有的速度不断地增长和积累,世界已经进入了网络化的大数据(BigData)时代[1]。大数据指在可容忍的时间内用常用软硬件工具无法对其进行有效感知、获取、管理、处理和服务的数据集合[2]。

  IBM、IDC等权威机构将其特点总结为4V特性:规模巨大化(Volume),形式多样化(Variety),生成高速化(Velocity),价值巨大但密度稀疏化(Value)。大数据的兴起引起了产业界、学术界及政府机构的高度重视。Microsoft、Google、IBM、Facebook等国际IT巨头广泛应用并推动大数据技术的发展。

  JimGray提出了数据密集型科学的“第四范式”[3],改变了人们对传统计算科学的看法;而《Nature》与《Science》也相继专刊讨论研究与大数据相关的问题:《Nature》于2008年出版专刊“BigData”[4],介绍了海量数据带来的挑战;《Science》于2011年出版“DealingwithData”专刊[5],讨论了数据洪流所带来的机遇与挑战。此外,美国政府于2012年公布了“大数据研发方案”①,该计划被视为美国政府继“信息高速公路”计划后又一重大举措。

  网络大数据[6]指“人、机、物”三元世界在网络空间(Cyberspace)中彼此交互与融合所产生并在互联网上可获取的大数据,其特点符合大数据的4V特性。首先,网络空间中数据资源飞速增长,数据规模不断扩大,呈现出海量的特性。其次,网络大数据类型丰富多样,呈现出多样化及异构化的特点,网络空间中涌现了大量的结构化数据、半结构化数据及非结构化数据,且非结构化数据的比例不断增长。再次,网络空间中大数据变化更新频繁,常以数据流的形式动态、快速地生成,具有很强的时效性。

  最后,网络空间中大数据价值巨大但呈现出稀疏性的特点,由于数据量巨大及表现形式多样化,传统的方法技术很难高效发现并获取用户所需的数据资源,实际应用中往往呈现出“数据丰富而知识缺乏”的窘态,网络大数据价值利用密度低。

  网络大数据对社会产生了深刻的影响,孕育着巨大的机遇,同时也为有效管理和利用大数据提出了挑战。在当前数据爆炸的大数据时代,针对网络空间中数据规模巨大,形式异构,动态变化,分布广泛等特点,如何高效地组织管理并搜索发现用户所需的数据资源面临着以下3个难点问题:

  (1)网络空间中数据资源类型繁多,表现形式多样,而形式异构的数据资源可能具有相同或相似的语义信息,传统的基于精确匹配的搜索方法不能有效地获取用户所需的数据资源。为了实现基于语义的智能搜索,需要将网络中海量异构的数据资源统一映射为语义空间中的高维数据,并通过有效手段快速锁定搜索区间,利用相似性搜索方法获取与用户语义相关的数据资源。

  (2)随着网络空间中数据资源的日益丰富,语义空间维度急剧增加。当空间维度过高时,在语义空间中实现相似性搜索的性能急剧下降,引发“维度灾难”[7]。

  (3)由于大数据的4V特性,在将网络大数据映射到统一的语义空间并进行基于语义的相似性搜索过程中将占用大量的计算及存储资源。传统的集中式处理方式容易产生性能瓶颈,系统的稳定性及可扩展性较差,不能很好的应对海量的网络数据及复杂的用户需求。

  以上3个问题可总结为:如何在统一的语义空间中描述网络大数据的语义信息,并对其进行适当的组织划分,实现基于语义的智能搜索发现;如何解决语义空间维度过高所引起的“维灾”问题;如何合理分配数据组织搜索过程中产生的庞大计算及存储开销,提高系统性能。本文对现有工作进行了深入研究,将上述问题的解决方法总结为对应的3个方面:高维索引技术、数据降维技术及分布式语义相似性搜索技术,如图1所示。

基于语义的网络大数据组织与搜索

  高维索引将海量异构的数据资源统一映射到语义空间,并根据给定的用户查询快速确定搜索区间,修剪掉与查询请求语义无关的数据集合,可以实现基于语义的相似性搜索。当语义空间维度过高时,容易引发“维灾”问题,导致高维索引的性能急剧下降,甚至不如顺序扫描。

  降维技术通过构造降维映射,获得高维数据集合的低维表示,可以有效消除“维灾”带来的影响。针对传统集中式设置带来的局限性,分布式高维索引或降维技术可以合理分配计算及存储开销,提高系统的健壮性及可扩展性,有效地应对网络大数据带来的挑战。本文的贡献主要体现为:

  (1)从向量空间及度量空间角度综述了现有的高维数据索引技术。

  (2)从线性及非线性角度综述了现有高维数据降维方法。

  (3)总结了现有的基于分布式技术的高维数据语义相似性搜索技术,并展望了未来发展方向。

  第2节综述现有的高维数据索引结构;第3节系统地介绍现有的高维数据降维方法;第4节总结现有的基于分布式技术实现高维数据语义相似性搜索方法;最后一节总结全文并展望未来工作。

上一篇:已经是第一篇

下一篇:高维数据索引

评论区

表情

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

相关内容

点击排行

随机新闻

评论排行榜