一种基于多媒体数据转换数据存储格式的方法

文档序号:6492290阅读:195来源:国知局
一种基于多媒体数据转换数据存储格式的方法
【专利摘要】本发明公开了一种基于多媒体数据识别转换数据存储格式的方法,所述方法包括:接收基于多媒体数据下的非结构化数据的输入;判断所述非结构化数据中的数据格式;若判断识别出非结构化数据中的数据格式为初始化普通文本,则对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流;若判断识别出非结构化数据中的数据格式为虚拟实现建模语言VRML数据,则对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换;将整理成的XML流和/或者经过X3D转换器转换后的VRML数据存入关系数据库。通过实施本发明,通过将非结构化的数据经过转换成在关系数据库中能够表示的数据,使得采用关系数据库的应用程序能够利用这些数据。
【专利说明】一种基于多媒体数据转换数据存储格式的方法
【技术领域】
[0001]本发明涉及数字家庭【技术领域】,具体涉及一种基于多媒体数据转换数据存储格式的方法。
【背景技术】
[0002]目前,大多数信息都是非结构化的,非结构化数据在数字家庭应用中占有绝大多数信息,它有应用范围广、处理难、标准多等特点,非结构化数据也是异构数据的主要形式,是当前数字家庭亟待突破和解决的重大问题之一。
[0003]数字家庭中的互动多媒体是指能够和用户进行互动的具备文本、图像等信息的数据。这种信息一般都是非结构化的信息,包含文字和图像等信息。然而处理这些非结构化数据并非易事;当前成熟的数据存储技术还是基于关系数据库的,关系数据库具有操作简单规范、数据分析和挖掘和分析也比非结构化数据容易;所以如何将非结构化的多媒体数据转换成结构化存储的关系数据变得非常必要。
[0004]当前对普通文本转换成关系型数据库有一些方法。这些方法首先将非结构化的数据进行半结构化,然后再对半结构化的数据进一步处理成结构化的符合关系型数据库的数据。在办结构化的阶段可以采用普遍的做法是XML5XML就是一种半结构化的数据存储格式,它能够很好的
[0005]现在的转储方法针对普通的文本文件已经能够取得不错的效果;但是针对一些图形数据和图像数据的时候并不能很好的支持;图形在数字家庭中在娱乐方面具有很重要的地位,一般采用网格表示;图像在家庭医疗中非常重要,通常伴随着图像特征等数据,这两种数据需要特别的处理,而当前的方法并不能很好的处理这两种数据。

【发明内容】

[0006]本发明的目的是为数字家庭环境中海量互动应用产生的多媒体数据提供一种转换存储方法,使得这些非结构化数据能够存储在规范的关系数据库中,方便后续应用利用。
[0007]本发明实施例提供了一种基于多媒体数据识别转换数据存储格式的方法,所述方法包括:
[0008]接收基于多媒体数据下的非结构化数据的输入;
[0009]判断所述非结构化数据中的数据格式;
[0010]若判断识别出非结构化数据中的数据格式为初始化普通文本,则对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流;
[0011]若判断识别出非结构化数据中的数据格式为虚拟实现建模语言VRML数据,则对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换;
[0012]将整理成的XML流和/或者经过X3D转换器转换后的VRML数据存入关系数据库。
[0013]所述初始化普通文本是以文本文件TXT保存的文本。
[0014]所述对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流包括:[0015]制作XML模板、输入识别字符和分离字符以及源数据,然后生成XML文件。
[0016]所述对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换包括:
[0017]对图形图像数据进行语义上的标注;
[0018]对标记好的信息进行归类统计、组建逻辑的预处理;
[0019]节点分类;
[0020]将这些分好类别处理过的X3D进行格式化,将其格式化成关系数据库中模式、表、表项所需要对应的类型,导入数据库中。
[0021]所述关系数据库为MS-SQL、或者MySQL。
[0022]通过实施本发明,通过将非结构化的数据经过转换成在关系数据库中能够表示的数据,使得采用关系数据库的应用程序能够利用这些数据^fXML中的元素和关系数据库中的模式进行映射,将相近的元素归纳为同一个类别,对应于关系数据库中的表以及表的列、元组,这样可以利于挖掘多媒体中的关键信息;实例多的元素类型变成了元组多,这样就只需要查询表格就可以得到多媒体的关键特征数据和关键元素。
【专利附图】

【附图说明】
[0023]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0024]图1是本发明实施例中的基于多媒体数据识别转换数据存储格式的方法流程图;
[0025]图2是本发明实施例中的将文本数据转换成XML文件流程示意图;
[0026]图3是本发明实施例中的将X3D数据转换成关系数据库中的数据的流程示意图;
[0027]图4是本发明实施例中的X3D元素和关系数据库的映射关系示意图;
[0028]图5是本发明实施例中的统计同类元素的流程示意图;
[0029]图6是本发明实施例中的基于多媒体数据转换数据存储格式系统部署结构示意图。
【具体实施方式】
[0030]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0031]一般说来,数字家庭终端不同应用产生的或者是采集生成的数据都是非结构化的,不同的应用其数据设计必然不一样;很多数据并没有为关系数据库做为存储,这为后续的以关系数据库为基础的应用带来了困难。所以有必要对数据进行转换存储。本系统的流程如图1所示,系统接收基于多媒体数据下的非结构化数据的输入;判断所述非结构化数据中的数据格式;若判断识别出非结构化数据中的数据格式为初始化普通文本,则对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流;若判断识别出非结构化数据中的数据格式为虚拟实现建模语言VRML数据,则对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换;将整理成的XML流和/或者经过X3D转换器转换后的VRML数据存入关系数据库。本实施例首先以非结构化数据作为输入,即自动识别获取数据;识别的数据包含初始化的普通文本,例如以TXT保存的文件;或者是VRML (Virtual RealityModeling Language,虚拟现实建模语言)数据,VRML是在虚拟现实的场景模型和三维世界的场景中通用的建模语言。接下来对识别的普通文本和/或VRML数据进行分开处理,普通文本采用XML库整理成XML流,而VRML经过X3D转换器的转换,最后将这些转换后的数据导入到关系数据库中,例如MS-SQL、MySQL等。其中的XML库有很多种选择,可以采用微软的MSXML,也可以采用其他如java语言的一些XML库,XML库已经非常普遍,而且实现的功能也基本相同,所以选取在合适平台下能够进行的即可。X3D是VRML的一个替代技术,它不仅实现了 VRML的全部功能,而且把它封装到一个更为轻型的,可扩展的核心之中。X3D将VRML脚本看作是一个结构化的数据集合,然后将其中的元素映射到XML文档下相应的节点。从而将在VRML描述下的图形图像数据能够在标准的XML文档中处理。
[0032]本系统将普通文本数据和VRML数据区分对待。如图2所示是将文本数据转换成XML文件。她主要包含三部分内容制作XML模板、输入识别字符和分离字符以及源数据,然后生成XML文件。XML模板是通过人工制作的,因为不同应用的数据结构相差比较大,你想要的逻辑结构也不一定和源数据的逻辑相同,所以根据用户所想要的逻辑定制好XML模板,然后根据该模板,配合指定识别字符和分离标志,将源数据转换成XML格式的数据,最后保存在XML文档中。
[0033]对于图形图像数据,一般采用VRML脚本语言进行描述,然后需要将这些脚本数据转换成关系数据库里面需要的格式导入到关系数据库中;其中转换工作就是通过X3D转换器进行的。其过程示意如图3所示。它以X3D流或者X3D文本作为输入到X3D转换器中,最后导入到关系数据库中。X3D转换器主要包含语义注释、初始统计、节点分类和X3D流改造四个步骤。具体如下:
[0034]Stepl:语义注释主要是对图形图像数据进行语义上的标注,通常需要对图形图像进行特征处理,例如对图像进行边缘化处理,然后提取其特征,将这些特征作为图像的语义表不;
[0035]Step2:初始统计在于对标记好的信息进行归类统计、组建逻辑的预处理,只有经过这些统计信息,下一步才能够根据这些信息进行节点的分类。
[0036]Step3:节点分类。在这些脚本语言中,节点是最基本的单位它是构成三维场景的基本元素。而一个大的场景也可以称作一个节点,所以节点是有分类和层次关系的;不同的节点代表不同的元素,其所有的属性不同,所处在的层次和逻辑也不尽相同。
[0037]St印4:X3D流改造。最后将这些分好类别处理过的X3D进行格式化,将其格式化成关系数据库中模式、表、表项所需要对应的类型。最后导入数据库中。
[0038]将X3D数据转化成关系数据,就是考虑如何将这种XML表示的数据转化成关系数据库中的表项;现在有的做法有两种,一种是基于结构的;一种是基于模式的。前者一般是将XML的DTD (Document Type Definition,文本类型标记)映射到关系模式,而后者是用一个固定的关系模式存储所有的XML文档。不管是哪种,二者对数字家庭互动服务中的多媒体数据并不合适。因为这些节点之间的关系映射到表中就成了不同的外键,这对于关系数据库而言是非常庞杂的,表格关系复杂,逻辑关系混乱不清晰。对于后续的处理是不容易的。事实上,也不需要将所有的关系都保存,而是需要保持一定层次的逻辑关系即可。
[0039]需要说明的是,在进行XML到关系数据库的转换时,应该是按照层次关系来进行转换的,可以规定只转换上层的四层;例如场景、组、节点、属性。将具有大量相近属性的节点看成是一个类,每个节点是这个类的实例而已,对应到关系数据库中,就是类对应于一个表,属性是表的列,每个实例是元组。如图4所示。
[0040]图4中提到类,它是一类元素的共性表现,抽象成类。然而这需要对X3D文档中的元素进行统计,识别出这些元素是同一类型的,然后把它们归纳为同一类的不同实例,再进行图4所示的映射。X3D文档本质也是一种XML文档,本发明设计了一种统计这些相近实例然后归纳成类的方法,其流程如图5所示,具体如下:
[0041]S1:取XML的根节点作为当前节点,current = root ;置层次为O层,depth = O ;转S2 ;
[0042]S2:判断当前层次depth是否小于强制的层次,例如我们前面所规定的4层,如果大于这个阈值则结束,退出当前程序;否则转S3 ;
[0043]S3:当前节点名字是否等于查询名并且当前深度是否等于查询深度,如果这个两者都符合则转S4,否则转S5 ;
[0044]S4:计数器加 1,即 count = count+1 ;专 S5 ;
[0045]S5:获得当前节点的孩子节点列表,然后判断是否为空,如果为空则输出该计数值,否则转S6 ;
[0046]S6:改变当前元素的指向,current =列表元素;查询的层次加I,depth =depth+1 ;转 S2。
[0047]最后,我们需要说明本系统的部署方式,如图6所示。包含服务器和客户端,服务器可以是某个机顶盒或者家庭网关,可以是社区区端服务器;客户端可以家庭环境下的任何信息设备,例如手持设备、手机、平板电脑或者是如XBoX这类的娱乐设备等。服务器包含服务器表示层、逻辑层、和数据库。它们之间的部署和通信关系如图6所示。客户端将自己的数据经过XML变化后发送给服务器端,服务器的逻辑层监听到这个请求后开启两个线程;第一个线程是将使用XSLT(Extensible Ssylesheet Language Transformations,扩展样式表转换语言)将XML转换成html,然后通过表示层返回给客户端,用于显示转换后的数据格式;第二个线程是将转换后的数据存入到关系数据库中。
[0048]综上,通过将非结构化的数据经过XML然后转换成在关系数据库中能够表示的数据,使得采用关系数据库的应用程序能够利用这些数据JfXML中的元素和关系数据库中的模式进行映射,将相近的元素归纳为同一个类别,对应于关系数据库中的表以及表的列、元组,这样可以利于挖掘多媒体中的关键信息;实例多的元素类型变成了元组多,这样就只需要查询表格就可以得到多媒体的关键特征数据和关键元素。
[0049]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
[0050]以上对本发明实施例所提供的基于分布式存储下的数字家庭内容读数据的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种基于多媒体数据识别转换数据存储格式的方法,其特征在于,所述方法包括: 接收基于多媒体数据下的非结构化数据的输入; 判断所述非结构化数据中的数据格式; 若判断识别出非结构化数据中的数据格式为初始化普通文本,则对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流; 若判断识别出非结构化数据中的数据格式为虚拟实现建模语言VRML数据,则对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换; 将整理成的XML流和/或者经过X3D转换器转换后的VRML数据存入关系数据库。
2.如权利要求1所述的基于多媒体数据转换数据存储格式的方法,其特征在于,所述初始化普通文本是以文本文件TXT保存的文本。
3.如权利要求2所述的基于多媒体数据转换数据存储格式的方法,其特征在于,所述对获取的初始化普通文本采用可扩展标记语言XML库整理成XML流包括: 制作XML模板、输入识别字符和分离字符以及源数据,然后生成XML文件。
4.如权利要求1所述的基于多媒体数据转换数据存储格式的方法,其特征在于,所述对获取的VRML数据采用可扩展三维语言X3D转换器进行数据格式的转换包括: 对图形图像数据进行语义上的标注; 对标记好的信息进行归类统计、组建逻辑的预处理; 节点分类; 将这些分好类别处理过的X3D进行格式化,将其格式化成关系数据库中模式、表、表项所需要对应的类型,导入数据库中。
5.如权利要求1至4任一项所述的基于多媒体数据转换数据存储格式的方法,其特征在于,所述关系数据库为MS-SQL、或者MySQL。
【文档编号】G06F17/30GK103853775SQ201210512403
【公开日】2014年6月11日 申请日期:2012年12月4日 优先权日:2012年12月4日
【发明者】刘海亮, 杨艾琳, 罗笑南, 苏航, 曾坤, 王炫盛 申请人:中山大学深圳研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1