面向多模态网络大数据的层次型存储方法及系统与流程

文档序号:19154750发布日期:2019-11-16 00:35阅读:270来源:国知局
面向多模态网络大数据的层次型存储方法及系统与流程

本发明涉及计算机技术领域,尤其是面向多模态网络大数据的层次型存储方法及系统。



背景技术:

近年来,随着云计算、移动通信和社交网络等技术的迅猛发展,网络空间中所包含的大数据,即网络大数据,越发显现4“v”(volume、velocity、variety、veracity)特性。facebook注册用户超过15亿,每月上传的照片超过75亿张,每天生成500tb以上的日志数据;twitter每天发出的tweets数量为4.8亿,目前,twitter网站上产生的tweets数量已经达到3000亿;而每天会有3.16万个小时的视频上传到youtube,足够一个人昼夜不息地观看3.6年。根据国际数据公司idc(internationaldatacorporation)的测算,2016年网络空间大约拥有1200eb的数据,2017年将会增长40%,超过1400eb,截至2020年,将会达到15000eb,超出了目前磁盘空间的存储能力。因此,如何进行有效地存储网络大数据是一个重要的技术问题。

目前,主流的网络大数据存储系统主要有以下五种:(1)分布式网络大数据存储系统:包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。(2)nosql网络大数据存储系统:可以支持超大规模数据存储,灵活的数据模型可以很好地支持web2.0应用,具有强大的横向扩展能力等。(3)基于图的网络大数据存储系统:使用带有节点、边和属性的图形结构来表示和存储网络大数据,它可以有效地管理网络大数据对象之间的关系。(4)基于rdf(资源描述框架:resourcedescriptionframework)的网络大数据存储系统:rdf是用于web信息资源管理的半结构化数据模型,它提供了一个本体,表示将资源分组为概念并标识这些概念之间的关系的语言。(5)云网络大数据存储系统:基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库,它具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。

然而,目前这些主流的网络大数据存储系统在存储多模态的网络大数据时,存在不容易部署、存储空间效率低以及存储时间代价高的缺陷。



技术实现要素:

有鉴于此,本发明实施例提供一种便于部署、空间效率高且时间代价低的面向多模态网络大数据的层次型存储方法及系统。

一方面,本发明实施例提供了一种面向多模态网络大数据的层次型存储方法,包括以下步骤:

根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;

将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;

基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;

基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。

进一步,所述根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量这一步骤,包括以下步骤:

将模态集合划分为若干个不相交的模态子集;

根据模态子集,获取数据对象在每一个模态子集上的特征向量;

根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表。

进一步,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;

所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。

进一步,所述将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量这一步骤,包括以下步骤:

分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;

分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;

对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局特征向量。

进一步,所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理。

进一步,所述基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度这一步骤,包括以下步骤:

根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;

根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;

根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;

根据计算得到的第一元特征相似度指标值、第二元特征相似度指标值和第三元特征相似度指标值,计算不同数据对象之间的特征相似度。

进一步,所述基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储这一步骤,包括以下步骤:

根据计算得到的特征相似度,采用谱聚类技术对多模网络大数据进行第一划分,得到第一层数据子集;

判断第一层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第一层的每个数据子集存储于相应的网络存储节点上;反之,则执行下一步骤;

基于广度优先策略,采用谱聚类技术对第一层数据子集进行第二划分,得到第二层数据子集;

判断第二层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第二层的每个数据子集存储于相应的网络存储节点上;反之,则继续基于广度优先策略,采用谱聚类技术对第二层数据子集进行划分处理,直至划分得到的数据子集符合网络存储节点的磁盘空间大小要求后,将划分得到的数据子集存储于相应的网络存储节点上。

另一方面,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:

特征获取模块,用于根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;

特征融合模块,用于将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;

相似度计算模块,用于基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;

存储模块,用于基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。

进一步,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;

所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。

另一方面,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的面向多模态网络大数据的层次型存储方法。

上述本发明实施例中的一个或多个技术方案具有如下优点:本发明的实施例首先获取每个数据对象在对应模态上的特征向量,然后将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量,接着计算不同数据对象间的特征相似度,最后基于广度优先策略,采用谱聚类技术对多模态网络大数据进行划分,并对划分得到的数据子集进行层次型存储;本发明充分考虑了不同模态的网络大数据,能够大幅度提高多模态网络大数据的存储空间效率以及使用效率;另外,本发明基于广度优先策略,利用谱聚类递归划分并存储多模态网络大数据,这样能够大幅度降低无效存储的时间开销,从而能够显著降低存储的总体时间代价;本发明结构清晰、逻辑合理,各个模块之间的耦合度低,易于部署和实现。

附图说明

图1为本发明的整体步骤流程示意图;

图2为本发明实施例的工作流程示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1,本发明实施例提供了一种面向多模态网络大数据的层次型存储方法,包括以下步骤:

根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;

将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;

基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;

基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。

具体的,本发明以多模态网络大数据nbd(d,h,g)为输入,其中d={d1,d2,…,dt}为t个数据对象的集合,h={h1,h2,…,hn}为n个模态的集合,g={g1,g2,…,gt}为t个数据对象所对应的模态信息集合,即第i(1≤i≤t)个数据对象对应的模态信息为gi={wi,1,wi,2,…,wi,n},wi,j(1≤j≤n)为第i个对象在第j个模态上的描述信息。

进一步作为优选的实施方式,所述根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量这一步骤,包括以下步骤:

将模态集合划分为若干个不相交的模态子集;

根据模态子集,获取数据对象在每一个模态子集上的特征向量;

根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表。

具体的,本发明针对网络大数据的每一个模态hj∈h,获取每个数据对象di∈d在模态hj上的特征向量,包括以下步骤:

步骤1:将模态集合h划分为6个不相交的模态子集h1、h2、h3、h4、h5和h6,其中h1中包含所有a1个离散属性模态,h2中包含所有a2个连续属性模态,h3中包含所有a3个文本模态,h4中包含所有a4个图片模态,h5中包含所有a5个视频模态,h6中包含所有a6个语音模态;

步骤2:基于模态信息集合g,做如下处理:对于h1中的每一个离散属性模态,获取每个数据对象di在该模态上的one-hot(独热)特征向量;对于h2中的每一个连续属性模态,首先将它的取值域分为若干个区间,每个区间对应一个虚拟的属性类别,从而获取每个数据对象di在该模态上的one-hot特征向量;对于h3中的每一个文本模态,使用transformer(转化器)工具抽取每个数据对象di在该模态上的文本特征向量;对于h4中的每一个图片模态,使用yolo-9000(youonlylookonce:“一遍图像识别”)工具抽取每个数据对象di在该模态上的图片特征向量;对于h5中的每一个视频模态,使用3dconvnets(三维卷积神经网络)工具抽取每个数据对象di在该模态上的视频特征向量;对于h6中的每一个语音模态,使用fsmn(feed-forwardsequentialmemorynetwork,深度全序列卷积神经网络)工具抽取每个数据对象di在该模态上的语音特征向量;

步骤3:对于每个数据对象di,构建长度为n的模态列表li,列表的第j个元素为di在模态hj上的特征向量vi,j,列表中模态的排列顺序按步骤1中划分后的模态子集顺序,即h1、h2、h3、h4、h5和h6。

进一步作为优选的实施方式,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;

所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。

进一步作为优选的实施方式,所述将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量这一步骤,包括以下步骤:

分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;

分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;

对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局特征向量。

具体的,本实施例对于每个数据对象di,将它所对应列表li中的n个模态特征向量vi,1,vi,2,…,vi,n融合成一个全局模态特征向量g_vi,过程由如下3个步骤组成:

步骤1:将li中前(a1+a2)个模态特征向量通过b1层自编码器降维成长度为r1的邻接特征向量pi,1;

步骤2:将li中后(a3+a4+a5+a6)个模态特征向量通过b2层自编码器降维成长度为r2的邻接特征向量pi,2;

步骤3:将邻接特征向量pi,1和邻接特征向量pi,2通过b3层自编码器降维成长度为r3的全局模态特征向量g_vi。

进一步作为优选的实施方式,所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理。

进一步作为优选的实施方式,所述基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度这一步骤,包括以下步骤:

根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;

根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;

根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;

根据计算得到的第一元特征相似度指标值、第二元特征相似度指标值和第三元特征相似度指标值,计算不同数据对象之间的特征相似度。

具体的,本实施例基于得到的所有数据对象融合后的全局模态特征向量,计算任意两个数据对象di,dj∈d之间的特征相似度,从而产生行数和列数均等于t的数据对象特征相似度矩阵t。di和dj之间的特征相似度计算过程由如下4个步骤组成:

步骤1:计算di和dj的第一元特征相似度指标值yij(1)

步骤2:计算di和dj的第二元特征相似度指标值yij(2)

步骤3:计算di和dj的第三元特征相似度指标值yij(3)

步骤4:综合上述三元特征相似度指标值并获得最终的特征相似度yij=λ1yij(1)+λ2yij(2)+λ3yij(3),其中λ1,λ2和λ3为控制因子,且λ1+λ2+λ3=1。

进一步作为优选的实施方式,所述基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储这一步骤,包括以下步骤:

根据计算得到的特征相似度,采用谱聚类技术对多模网络大数据进行第一划分,得到第一层数据子集;

判断第一层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第一层的每个数据子集存储于相应的网络存储节点上;反之,则执行下一步骤;

基于广度优先策略,采用谱聚类技术对第一层数据子集进行第二划分,得到第二层数据子集;

判断第二层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第二层的每个数据子集存储于相应的网络存储节点上;反之,则继续基于广度优先策略,采用谱聚类技术对第二层数据子集进行划分处理,直至划分得到的数据子集符合网络存储节点的磁盘空间大小要求后,将划分得到的数据子集存储于相应的网络存储节点上。

具体的,本实施例基于第三阶段中构造的数据对象特征相似度矩阵t,对于多模态网络大数据nbd,使用谱聚类技术产生k1个第一层的数据子集,然后判断第一层的每个数据子集是否符合网络存储节点的磁盘空间大小要求,如果某一个数据子集不符合要求,那么使用谱聚类技术继续划分它。从而,基于广度优先策略,递归执行上述过程,使得网络存储节点的磁盘空间能够容纳划分后的所有数据子集。最终,本发明得到k个数据子集nbd1,nbd2,…,nbdk,并将它们存储于相应的网络存储节点上,k为叶子节点的数量。

下面以1000万个数据对象的网络大数据为例,详细描述本发明一种面向多模态网络大数据的层次型存储方法的具体实施步骤:

如图2所示,本发明的具体实施方法包括四个阶段,分别为:

第一阶段:针对网络大数据的每一个模态hj∈h,获取每个数据对象di∈d在模态hj上的特征向量;

第二阶段:对于每个数据对象di,将它所对应列表li中的n个模态特征向量vi,1,vi,2,…,vi,n融合成一个全局模态特征向量g_vi;

第三阶段:基于第二阶段中得到的所有数据对象融合后的全局模态特征向量,计算任意两个数据对象di,dj∈d之间的特征相似度,从而产生行数和列数均等于t的数据对象特征相似度矩阵t;

第四阶段:得到k个数据子集nbd1,nbd2,…,nbdk,并将它们存储于相应的网络存储节点上。

本实施例使用1000万个数据对象的网络大数据,即t=1000万,模态个数n=15,包括8个离散属性模态个数、3个连续属性模态、1个文本模态、1个图片模态、1个视频模态以及1个语音模态,即第一阶段中,a1=8,a2=3,a3=a4=a5=a6=1。另外,在第一阶段中,8个离散属性模态上的one-hot特征向量的长度分别为10、5、5、15、20、5、15和10,3个连续属性模态上的one-hot特征向量的长度分别为20、15和30,而文本模态、图片模态、视频模态和语音模态上的特征向量的长度均设置为200。

在第二阶段的步骤1中,本发明构造5层自编码器(即b1=5)如下:第1层为神经元个数等于200的全连接层,第2层为神经元个数等于150的全连接层,第3层为神经元个数等于100的全连接层((即r1=100),第4层为神经元个数等于150的全连接层,第5层为神经元个数等于200的全连接层。

对于步骤1中的5层自编码器,本实施例使用如下损失函数:

其中,z为自编码器训练是的最小批样本集大小,为第i个训练样本在第五层全连接层中所对应第j个神经元的取值,f1i[j]为第i个训练样本在第一层全连接层中所对应第j个神经元的取值。

在第二阶段的步骤2中,本发明构造7层自编码器(即b2=7)如下:第1层为神经元个数等于600的全连接层,第2层为神经元个数等于450的全连接层,第3层为神经元个数等于350的全连接层,第4层为神经元个数等于300的全连接层((即r2=300),第5层为神经元个数等于350的全连接层,第6层为神经元个数等于400的全连接层,第7层为神经元个数等于450的全连接层。

对于步骤2中的7层自编码器,本发明使用如下损失函数:

其中,为第i个训练样本在第七层全连接层中所对应第j个神经元的取值。

在第二阶段的步骤3中,本发明构造5层自编码器(即b3=5)如下:第1层为神经元个数等于350的全连接层,第2层为神经元个数等于250的全连接层,第3层为神经元个数等于200的全连接层(即r3=200),第4层为神经元个数等于250的全连接层,第5层为神经元个数等于350的全连接层。

对于步骤3中的5层自编码器,本发明使用如下损失函数:

在第三阶段的步骤1中,本发明使用如下公式计算di和dj的第一元特征相似度指标值yij(1)

其中,g_vi和g_vj分别为di和dj对应的全局模态特征向量,长度为200,g_vi[x]和g_vj[x]分别为两个全局模态特征向量在其第x分量上的取值。

在第三阶段的步骤2中,本发明使用如下公式计算di和dj的第二元特征相似度指标值yij(2)

在第三阶段的步骤3中,本发明使用如下公式计算di和dj的第三元特征相似度指标值yij(3)

在第三阶段的步骤4中,三个控制因子中λ1,λ2和λ3的取值分别设置为0.5,0.3和0.2。

当第三阶段实施完毕之后,本发明得到了一个1000万行和1000万列的特征相似度矩阵t(其中t=1000万):

在第四阶段中,本发明将多模态网络大数据nbd作为根节点层(即第0层),利用第三阶段中构造的数据对象特征相似度矩阵t,基于广度优先策略,使用谱聚类技术对它进行递归划分,使得划分后所得到的每个数据子集均符合网络存储节点的磁盘空间大小要求为止,停止第四阶段的运行。

在递归划分的过程中,对于第i层的第j个数据子集nbdij,如果它不符合要求,那么使用谱聚类技术产生ki,j个数据子集nbd1,nbd2,…,nbdkij,这里ki,j=100/i,过程如下:

(1)从数据对象特征相似度矩阵t,获取与数据子集nbdij相关的数据对象特征相似度子矩阵tij,tij的行和列代表nbdij中的每个数据对象,因此它的行数和列数均等于nbdij中的数据对象数量,记为nij,而tij的单元格内容为对应两个数据对象的特征相似度;

(2)使用如下公式计算tij的对角特征相似度矩阵td(1≤x,y≤nij):

(3)使用如下公式计算基于tij和td的拉普拉斯矩阵tl:

(4)获取tl前ki,j个最小特征向量,并构成矩阵y,它的行数和列数分别为nij和ki,j;

(5)对y实施聚类,产生ki,j个数据子集nbd1,nbd2,…,nbdkij。

与图1的方法相对应,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:

特征获取模块,用于根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;

特征融合模块,用于将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;

相似度计算模块,用于基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;

存储模块,用于基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。

进一步作为优选的实施方式,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;

所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。

与图1的方法相对应,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的面向多模态网络大数据的层次型存储方法。

综上所述,本发明面向多模态网络大数据的层次型存储方法及系统具有以下优点:

1.本发明充分考虑网络大数据多种不同模态类别及其描述信息,并将全局模态特征最相似的数据对象存储于同一个或相邻的网络存储节点上,从而能够大幅度提高多模态网络大数据的存储空间效率以及使用效率。

2.本发明基于广度优先策略,利用谱聚类递归划分并存储多模态网络大数据,这样能够大幅度降低无效存储的时间开销,从而能够显著降低存储的总体时间代价。

3.本发明结构清晰,逻辑合理,模块之间耦合度较低,易于实现和部署,不仅可以快速扩展到分布式和并行化的开发环境中,而且有助于扩展以及测试维护。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1