面向多模态网络的数据混合存储方法及装置与流程

文档序号:31096224发布日期:2022-08-10 01:47阅读:93来源:国知局
1.本发明涉及多模态数据存储的
技术领域
:,尤其涉及面向多模态网络的数据混合存储方法及装置。
背景技术
::2.知识图谱技术在解决知识理解以及知识推理方面展现出了巨大的优势,能够实现多源异构数据的组织关联,尤其在面向实体之间存在复制链接关系的场景中有利于改善对于知识的理解。3.知识图谱数据管理的一个核心问题是如何有效地存储和查询rdf数据集。其一是利用已有的成熟的数据库管理系统,如关系数据库系统来存储知识图谱数据,将面向rdf知识图谱的sparql查询转换为面向此类成熟数据库管理系统的查询,例如面向关系数据库的sql查询,利用已有的关系数据库产品或者相关技术来回答查询。常见的方法有简单属性表模型转换法、聚类属性表模型转换法,其中,简单属性表模型转换法:是一种最为简单的将rdf数据映射到关系数据库表的方法。构建一张只有三列表(subject,property,object),将所有的rdf三元组都放在这个表中。给定一个sparql查询,我们设计查询重写机制将sparql转化为对应的sql语句,由关系数据库来回答此sql语句。聚类属性表模型转换法:将概念上相关的属性聚成一类,每一类定义一个单独的数据库表,使用水平方式存储这些三元组。如果有一些三元组不属于任何一个类别,它们被放在一张剩余表(left-overtable)中。属性类别表将所有的实体按照rdf:type来分类,每一类用一个张水平表来表示。这种组织方式要求每个实体都必须有一个rdf:type属性(标识实体分类的标签)。每个类型的数据表只记录该类型的特有属性,不同类别的公共属性保存在上一级类型对应的数据表中,下一级表继承上一级表的所有属性。4.但是,现有技术中,往往都是统一类型的数据进行存储,而且数据存储的关键字不同会导致数据的比对结果差距很大。所以缺少一种能够智能比对多种模态数据,而且存储效率较高的方式。技术实现要素:5.本发明实施例的目的在于提供面向多模态网络的数据混合存储方法及装置,旨在提供一种智能比对多种模态数据,而且获得每一模态数据的属性信息,从而提高多模态数据之间的存储效率。6.为达到上述目的,本发明实施例提供了面向多模态网络的数据混合存储方法,包括:7.获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列;8.对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合;9.基于语义相近的关键词的相似度,确定每一集合中的代表词;10.以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;11.使用更新后的关键词序列作为对应多模态数据的属性信息。12.一种实现方式中,所述获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列的步骤,包括:13.获取每一应用的多模态数据,并将每一模态数据转换为文本;14.对每一模态数据对应的文本进行关键词提取,获得对应的关键词序列。15.一种实现方式中,在所述多模态数据视频数据时;16.所述将每一模态数据转换为文本的步骤,包括:17.对该模态数据进行分割,获得音频数据和图像数据,其中,所述图像数据包括每一帧图像中的图像特征;18.将所述音频数据和图像数据转换为文本数据。19.一种实现方式中,所述基于语义相近的关键词的相似度,确定每一集合中的代表词的步骤,包括:20.基于每一集合,获取任意两个语义相近的关键词的相似度值;21.基于相似度值,获得每一集合的代表词。22.一种实现方式中,所述基于相似度值,获得每一集合的代表词的步骤,包括:23.获得集合中每一关键词与其他关键词的欧式距离;24.将与其他关键词欧式距离最近的关键词作为代表词。25.一种实现方式中,所述获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列的步骤,包括:26.获取每一应用的多模态数据,基于所获取数据的特性确定至少一个数据类别;27.基于protégé建模工具和所述至少一个数据类别,获得每一模态数据的关键词和对应的关键词序列。28.一种实现方式中,所述基于protégé建模工具和所述至少一个数据类别,获得每一模态数据的关键词和对应的关键词序列的步骤,包括:29.采用rotégé建模工具获取所述至少一个数据类别在本应用侧面的多个共同属性点,其中,每一个共同属性点具有多个基于语义的命名表达,且所述多个共同属性点的表达形式相同;30.将所述多个共同属性点作为每一模态数据的关键词,并获得该关键的关键词序列。31.一种实现方式中,所述方法还包括:32.对所述属性信息进行聚类,并将聚类后的结果分类存储在不同的数据库中;33.建立属性信息到待存储数据的链接。34.此外,本发明还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一面向多模态网络的数据混合存储的步骤。35.以及,本发明还公开了面向多模态网络的数据混合存储装置,包括:36.获取模块,获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列;37.识别模块,对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合;38.确定模块,基于语义相近的关键词的相似度,确定每一集合中的代表词;39.替换模块,以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;40.更新模块,使用更新后的关键词序列作为对应多模态数据的属性信息。41.应用本发明实施例提供的一种方面向多模态网络的数据混合存储法,首先获取每一应用的多模态数据,在分别提取每一多模态数据的关键词序列或,对关键词序列中的近义词进行识别,获得由所识别的语义相近的关键词对应的集合;采用集合的代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;并使用更新后的关键词序列作为对应多模态数据的属性信息。通过代表词替代关键词能够消除多模态数据之间的差异,并提高数据比对时的识别效率,而且通过所获得的每一模态数据的属性信息,在进行属性信息比对时提供便利;同时避免存储多个同义词,从而提高多模态数据之间的存储效率。附图说明42.图1是本发明实施例的面向多模态网络的数据混合存储方法的计算机终端的硬件结构框图。43.图2是本发明实施例的面向多模态网络的数据混合存储方法的流程示意图。44.图3是本发明实施例的另面向多模态网络的数据混合存储方法的流程示意图。45.图4是本发明实施例的一种关键词获取过程的示意图。具体实施方式46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。47.本发明实施例首先提供了面向多模态网络的数据混合存储方法,该方法可以应用于电子设备,如计算机终端等等。48.下面以运行在计算机终端上为例对其进行详细说明。图1为本发明实施例提供的面向多模态网络的数据混合存储方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。49.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的面向多模态网络的数据混合存储方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。50.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。51.图数据库基于有向图理论,节点、边和属性是图数据库的核心概念。节点用于表示实体、事件等对象,可以类比于关系数据库中的记录或数据表中的行数据;边指图中连接节点的有向线条,用于表示不同节点间的关系,例如节点间的夫妻关系、同事关系都能作为边;属性用于描述节点或边的特性,例如的姓名,夫妻关系的起止时间等。52.知识图谱分为模式层和数据层两部分:其中模式层是知识图谱的核心,用以定义数据规范通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。53.类层次结构:以树状结构表示的类层次结构,每个子类继承其祖先节点的属性,每个类的属性作为信息槽位便于定义知识抽取中的数据填充原则。54.类关系定义:类之间存在相互的关系,类之间可以定义单向的关系,也可以定义双向的关系。如果需要定义主逆关系,需要约定其主关系及逆关系。55.类领域定义:为了管理方便,定义了多个领域便于将类进行分组管理。56.类属性定义:公共类里抽取了一些非常基础的属性作为公共属性,每个类定义了自己的专有属性。57.数据层由符合模式定义的一系列的事实组成,事实集合进行结构化存储形成知识。58.实体结构:实体使用图节点存储,具备其所属类别的所有属性。59.关系结构:关系是用图的边来存储,具备其所属类别的所有属性。60.类结构:物理上不需要单独建立节点,以标签属性代表节点所属类,避免同类实体聚集出现超大节点,影响图遍历计算效率。61.类领域定义:物理上不需要单独建立节点,已标签属性代表节点所属域。62.本发明实施例针对数据种类多样、结构异质、难于统一组织管理的问题,设计面向多模态网络的数据混合存储方法,屏蔽数据存储的差异性,实现数据的统一管理访问;理解各类型数据特点,构建面向特定领域知识的本体,能够动态扩展图谱的实体类型、属性和关系,实现数据的建模和表示。拟采用特殊本体(ontology)技术对各类异构数据进行统一表示。63.1)数据顶层抽象本体构建技术,对应s101-s102步骤。64.面向各类数据特点,深入分析数据的共性,提炼总结出能够涵盖所有数据的顶层抽象本体,如关键词,主要分为以下几项步骤:针对各个应用抽象侧面,梳理总结各类数据在本应用侧面的共同点;将各个共同点从语义上进行统一命名,形成命名集n={c_1,c_2,…c_m};利用protégé建模工具建立一个抽象本体o_a,具有衍生功能,o_a的每个属性即为n中的值。65.2)数据派生本体构建技术,对应s103-s104步骤。66.在顶层抽象本体的指导下,可以生成针对每类具体数据的派生本体,从而详细描述该类数据的本质特点,具体步骤如下:针对每一类数据,将o_a进行派生,生成一个子类本体;总体提炼本类数据的特性,形成命名集;根据命名集数据,生成该派生本体的属性和属性值。67.3)数据关系本体构建技术,对应s105步骤。68.除了顶层本体从抽象层面进行描述外,还需要关系本体将各个派生本体的联系进行描述,具体步骤如下:总结任意两类数据的关系,形成本体链接集合;针对每个链接集合的数据,生成关系本体,将对应的派生本体进行链接描述。69.如图2所示,提供了请参阅图2,提供了面向多模态网络的数据混合存储方法,包括:70.s101,获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列。71.需要说明的是,本发明实施例中所说的多模态数据包括视频、音频、文档(例如word、pdf)等数据。对于word、pdf可以直接获取对应的文字,从而将其转换成本发明可使用的文本。而对于音视频等数据则采用本发明实施例提供的模态数据转换方法,从而获得该模态数据对应的关键词序列。72.一种实现方式中,获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列的步骤,包括:获取每一应用的多模态数据,并将每一模态数据转换为文本;对每一模态数据对应的文本进行关键词提取,获得对应的关键词序列。73.一种实现方式中,在所述多模态数据视频数据时;74.其应用场景包括,采用知识图谱技术在解决知识理解以及知识推理方面展现出了巨大的优势,能够实现多源异构数据的组织关联,尤其在面向实体之间存在复制链接关系的场景中有利于改善对于人物知识的理解。75.知识图谱数据管理的一个核心问题是如何有效地存储和查询rdf数据集。其一是利用已有的成熟的数据库管理系统(例如关系数据库系统)来存储知识图谱数据,将面向rdf知识图谱的sparql查询转换为面向此类成熟数据库管理系统的查询,例如面向关系数据库的sql查询,利用已有的关系数据库产品或者相关技术来回答查询。这里面最核心的研究问题是如何构建关系表来存储rdf知识图谱数据,并且使得转换的sql查询语句查询性能更高。76.因此,本发明实施例数据存储方式,是如上情境中数据查询、数据比对等的基础。77.进一步的,所述将每一模态数据转换为文本的步骤,包括:对该模态数据进行分割,获得音频数据和图像数据,其中,所述图像数据包括每一帧图像中的图像特征;将所述音频数据和图像数据转换为文本数据。78.本技术中将上述所有数据全部转换为文本格式,例如视频数据进行音频图像分割,将音频通过语音转换为文本。为了获得全面的信息,将视频中每一帧中图像特征提取出来,例如通过图像识别技术,进而提取人物、背景特征(如房屋、树木等),加入到文本中。79.由于上述多模态数据文字较多,在数据查询时无法直接进行比对,因为会造成比对结果等待太久,效率较低的问题。因此,本发明实施例为每一模态数据确定对应的关键词序列。该过程为从每一模态数据中提取对应的关键词。80.需要说明的是,关键词的提取包括无监督关键词提取和有监督关键词提取。无监督关键词提取方法主要有三类,包括:基于统计特征的关键词提取(tf,tf-idf);基于词图模型的关键词提取(pagerank,textrank);基于主题模型的关键词提取(lda)。81.基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。82.有监督关键词提取过程,是将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。83.因此,可以根据不同的应用场景选择不同的关键词提取方法。84.示例性的,本技术将音视频转换问文本以后,作为一篇新的文档,可以通过提取所有的候选词,然后通过预先设置好的关键词提取分类器来进行关键词提取。而关键词分类器可以通过现有技术,也可以根据需求进行设置。提起关键词后即输出对应的向量,也就是关键词序列。85.本发明实施例中,关键词分类器的实现可以采用如下实施例:86.对语料进行word2vec模型训练,得到词向量文件;87.对文本进行预处理获得n个候选关键词;88.遍历候选关键词,从词向量文件中提取候选关键词的词向量表示;89.对候选关键词进行k-means聚类,得到各个类别的聚类中心(需要预先设定聚类的个数);90.计算各类别下,组内词语与聚类中心的距离(欧几里得距离或曼哈顿距离),按聚类大小进行降序排序;91.对候选关键词计算结果得到排名前topk个词语作为文本关键词。92.也可以采用其他技术来实现关键词分类器,本发明实施例不做具体限定。93.另一种实现方式中,如图3,所述获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列的步骤,包括:94.s2011,获取每一应用的多模态数据,基于所获取数据的特性确定至少一个数据类别。95.s2012,基于protégé建模工具和所述至少一个数据类别,获得每一模态数据的关键词和对应的关键词序列。96.需要说明的是,protégé建模工具可以用来分类,获得多个关系,在每一个关系下面又划分为小类,最终会形成两个不同关系之间的交叉,示例性的,如图4所示。首先,对数据的特性进行分类,例如分为人物、工具、国别,在人物中又从该模态数据获得张飞、关羽、吕布,在工具中获得方天画戟、青龙偃月刀、斧头、,在国别中获得、魏、蜀、汉,那么在交叉中可以获得青龙偃月刀、关羽、蜀,另一组交叉中为吕布、方天画戟、汉。因此,就获得两组关键词和关键词组成的序列,该序列为s={(吕布、方天画戟、汉)、(青龙偃月刀、关羽、蜀)}。以此类推在数据较多的时候可以扩充该序列,从而实现关键词和关键词序列。97.一种实现方式中,所述基于protégé建模工具和所述至少一个数据类别,获得每一模态数据的关键词和对应的关键词序列的步骤,包括:98.采用rotégé建模工具获取所述至少一个数据类别在本应用侧面的多个共同属性点,其中,每一个共同属性点具有多个基于语义的命名表达,且所述多个共同属性点的表达形式相同;将所述多个共同属性点作为每一模态数据的关键词,并获得该关键词序列。99.如图4所示,本发明实施例中,确定共同属性点即为人物、工具、国别组成的命名表达,那么每一个属性点均包括这三个值。此外,共同属性点也可以包括4个属性点、2个属性点、或者更多的属性点,本发明实施例不做具体限定。100.s102,对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合。101.需要说明的是,本发明实施例中为了获得关键词序列中的近义词,可以在关键词序列中采用提取余弦值比较高的作为候选同义词。102.示例性的,关键词序列为n={a1、b1、c1、d1、a2、b2、c2、d2……an、bn、cn、dn},共计4*n个关键词,采用两两提取每一个关键字的余弦值。103.具体的,以a1为比较对象,获取从b1到dn的4*n-1个余弦值,然后以b1为比较对象,获取c1到dn的4*n-2个余弦值,直至以cn为比较对象,获取cn和dn的1个余弦值,将写余弦值进行比较,基于设定的标准值,当超出这个标准值时,则将对应的关键词作为同义词;又或者是,将所有余弦值从高到低进行排列获得排名前n的关键词作为同义词。从而获得每一个关键词序列所对应的语义相近的关键词集合,假设任意一个关键词序列对应的义相近的关键词集合gi,表达形式为gi={c1、c2、c3、c4……cn}。104.s103,基于语义相近的关键词的相似度,确定每一集合中的代表词。105.需要说明的是,键词序列对应的义相近的关键词集合gi={c1、c2、c3、c4……cn},其中多个关键词可以是意思相近的关键词,例如由于其出现在不同的篇章,采用不同的称呼形式或者不同的语境中就会造成这种现象。出现这种现象造成的问题是会造成数据比对的时候数据量过大。因此,本发明实施例基于此引入集合中的代表词,以代表词来代替具有相近于此的词汇,从而降低比较的复杂度。106.需要说明的是,在数据进行检索时,会根据用户输入的关键词进行意义比对,在比对时不仅会用该搜索关键词本身,还会使用到该搜索关键词的同义词/近义词,以提高搜索的效果。因此,如果一个模态的数据包含的关键词当中有太多的语音相近的关键词,那么现在检索的时候,不但会将搜索关键词与每一个语音相近的关键词进行比较,还会将与该搜索关键词的同义词/近义词的与每一个语音相近的关键词进行比较,这就增大了比较的数量,而且还包含了关键词的同义词/近义词与被搜索关键词(关键词序列中的关键词)的同义词/近义词进行比较,数据搜索量会增大非常多的倍数。107.为了解决这一技术问题,本发明实施例中确每一集合中的代表词,具体如何确定,本发明实施例中,基于语义相近的关键词的相似度,确定每一集合中的代表词的步骤,包括:基于每一集合,获取任意两个语义相近的关键词的相似度值;基于相似度值,获得每一集合的代表词。108.通过任意两个语义相近的关键词的相似度值,然后在进行比较。例如,先获得集合中每一关键词与其他关键词的欧式距离;将与其他关键词欧式距离最近的关键词作为代表词。也就是说该关键词是与其他多个语义相近的关键词相对意义最接近的关键词,从而确定其具有代表性。109.s104,以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列。110.进一步的,为了解决上述搜索关键词重复计算量大的问题,本发明实施例将代表词对应替换到对应的s101步骤中的关键词序列中,也就是说s101步骤的关键词序列中,将不存在所识别集合(语义相近的关键词)。111.s105,使用更新后的关键词序列作为对应多模态数据的属性信息。112.需要说明的是,由于s104中,采用代表词替换了原来与之相近的其他关键词,那么更新后的关键词序列通过去除冗余关键词,总体的关键词数量就会变少,例如原先所获得关键词序列为50个关键词,代表词替换了6个关键词,保留代表词本身,那么还有50-6+1=45个关键词,那么这45个关键词组成的新的关键词序列即为该多模态数据的属性信息。113.示例性的,原关键词序列为n={a1、b1、c1、d1、a2、b2、c2、d2……an、bn、cn、dn},经过更新后为n’={a1、c1、a2、c2、d2……an、dn},其中里面的任意一个关键词可以是词向量,因此,经过更新后的关键词系列就确定为该模态数据的属性信息,并进行存储。114.示例性的,在进行属性信息存储以后,可以对属性信息进行聚类,然后分类存储在不同的数据库中,这样就相当与模态数据进行分类,从而在比较的时候可以增加在该存储区域数据检索的成功率,再建立属性信息到待存储数据的链接。115.此外,本发明还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一面向多模态网络的数据混合存储的步骤。116.以及,本发明还公开了面向多模态网络的数据混合存储装置,包括:117.获取模块,获取每一应用的多模态数据,并提取所获取的多模态数据的关键词序列;118.识别模块,对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合;119.确定模块,基于语义相近的关键词的相似度,确定每一集合中的代表词;120.替换模块,以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;121.更新模块,使用更新后的关键词序列作为对应多模态数据的属性信息。122.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1