一种对音、视频内容进行语义描述的方法和系统的制作方法

文档序号：6367909阅读：246来源：国知局

专利名称：一种对音、视频内容进行语义描述的方法和系统的制作方法
技术领域：
本发明涉及音视频数字出版技术领域，特别是涉及一种对音视频内容进行语义描述的方法及系统。
背景技术：
随着人类社会的发展，人们获取知识与信息的方式正在发生着变化，出版、IT企业目前正在把大量音视频文件进行多种格式的加工，投放到网络、电纸书、平板电脑上。很多人更希望精准地获取一段音视频的部分内容，甚至是很少一部分内容，但是，目前这些格式的音视频文件的检索方式仅能够基于音视频文件的文件名、作者、标题、关键词等基于音视频文件自身的基本属性进行检索，由于视频文件涵盖的内容比较多，一个音视频文件中的大多数内容可能并不是读者所需要的。现有的检索方式无法定位到单个音视频文件中更具体的位置，由此而导致不能精确检索到读者真正想要的内容。

发明内容
鉴于现有技术的缺陷，本发明提供一种对音视频内容进行语义描述的方法，其特征在于包括如下步骤(I)定义一种结构字典与语义字典，并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XMLSchema文件；(2)导入音视频文件并把音视频内容拆分成多个片断；(3)为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；(4)在所述XML文件中分别对每个片断进行语义描述赋值，形成一个新的XML文件；(5)对新的XML文件添加XML Schema声明、版权声明、音视频文件的位置，最终形成的描述音视频内容的XML文件或者对新的XML文件添加XML Schema声明、版权声明，并存入原音视频文件中，产生一个新的音视频文件。此外，本发明还提供一种对音视频内容进行语义描述的系统，其特征在于包括
(I)定义一种结构字典与语义字典，并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件的装置；(2)用于导入音视频文件并把音视频文件拆分成多个片断的装置；(3)用于为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件的装置；(4)用于在所述XML文件中分别对每个片断进行语义描述赋值，形成一个新的XML文件的装置；(5)用于对新的XML文件添加XML Schema声明、版权声明、音视频文件的位置，最终形成的描述音视频内容的XML文件或者对新的XML文件添加XMLSchema声明、版权声明，并存入原音视频文件中，产生一个新的音视频文件的装置。本发明能够实现音视频文件的片断内容的语义描述，音视频内容不再是完整的一部，而是被有目的地分成若干个片断，每一个片断都对应着读者的一个或多个诉求，海量的音视频文件最终形成了海量的音视频知识库，而不是简单的数据库。读者的每一个问题都能从知识库中检索到一个或多个答案，这完全高于目前音视频的检索效率，这在垃圾数据日益膨胀的未来更加重要与迫切。

图I是本发明对音视频内容进行语义描述的方法的数据处理流程图。
具体实施例方式本发明就是要通过音视频内容分割与内容语义描述两种手段相结合的方式来解决音视频内容的检索效率的问题。所谓语义描述就是对音视频文件中的某一段内容进行一些概括性的解释，这些解释的目的就是设法把读者的诉求与音视频文件的内容连接在一起，比如，读者的诉求往往是“万有引力的定律”这类问题，如果要让工具在海量的音视频文件中快速而又精准地检索到这些片断内容，那么就要对这些音视频文件的某段内容进行“万有引力的定理”这样的概括性的语义描述。要实现音视频内容的语义描述的目标，就必须解决好两个问题一是要有一个很好的方法来分割音视频内容，使分割的片断内容可以任意大小，同时保持一定的层次关系。目前已有的分割方法不能实现任意大小的分割，以视频为例就不能实现跨节目、片断、场景、镜头的分割，完全是按传统结构来分割的；二是建立一种方法来对每一个片断内容进行多角度的语义描述，使之与读者多种诉求相联系。目前对音视频的语义描述仅仅是关键词，没有完整的语义，更没有与某种市场需求对应起来。为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式
对本发明作进一步详细的说明。图I是本发明对音视频内容进行语义描述的方法的步骤流程图，该方法包括如下步骤(I)定义一种结构字典与语义字典，并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件；这一步一般是在拆分与标注前做的准备工作，在具体标注过程中要不断更新字典与XMLSchema 文件。举例来说，本发明建立的结构字典如下BID.属性名=音视频文件ID号；BID.取值范围=字符；BID.说明=音视频文件的唯一识别码SID.属性名=片断ID号；SID.取值范围=字符；SID.取值规则=XXX. XXX. XXX. XXXSID.说明=每个片断的唯一识别码；N.属性名=片断的序号；N.取值范围=整数；N.说明=片断在原音视频文件中的先后位置P.属性名=时间范围；
P.取值范围=二元整数组；P.说明=原音视频文件的时间范围F.属性名=帧频率；F.取值范围=N;
F.说明=原音视频文件的频率。该结构与电子图书结构的描述方法基本相同，不同点在于(I)描述对象不同，一个是电子图书(PDF\D0C\INDD等)，一个是音视频文件(MP3\MP4\AVI等)，(2)描述方法中的P元素的属性不同，电子图书P元素的属性是页码相关信息，音视频的P元素属性是时间范围。第三方软件工具根据该时间信息、频率信息来定位到具体的帧，但本方法不描述帧，只描述片断，如果片断的时间属性为1，频率为I时，那么该片断就是一个帧。如果时间为场景的时间长度，频率为25时，该片断可能就是一个场景。此外，为了让其它工具更好识别本发明对音视频内容所作的语义描述，我们可以对语义描述中所用到的一些词可以做一个规范，形成一个语义字典。例如，对OP i = (O i, A i, AK i，C i)中的每个取值做如下说明属性名、取值范围、详细说明O.属性名=主体词；O.取值范围=任意名词；O.说明=语义所描述的对象A.属性名=谓体词；A.取值范围=任意动词或系动词+名词；A.说明=语义所描述的对象的功能性说明；AK.属性名=谓体词的补充说明；AK.取值范围=任意词；AK.说明=语义所描述的对象的功能性说明的进一步补充C.属性名=约束条件；C.取值范围=多元词组；C.说明=从多个方面来说明对象功能的条件本发明中的结构字典和语义字典均通过XML Schema声明发布，并且在具体标注过程中要不断更新字典与XML Schema文件，音视频文件中的片断结构与语义是通过XML语言来描述的，这时就需要一个Schema文件对该描述是否规范、是否存在语法错误、是否符合自定义的字典要求等内容进行这些语法验证，这个Schema文件就是字典的发布形式。(2)导入音视频文件并把音视频内容拆分成多个片断；在该步骤中，可以开发一个结构拆分的计算机辅助程序，实现把音视频文件按一定的规则，这个规则可以由用户根据自己的应用需求来确定，比如，按帧来细分视频；或者按镜头来细分；或者按内容来细分。分解成若干个内容连续的片断，每个片断可以是传统意义的结构单元，也可以是包含这些结构单元，但本身并不是结构单元的片断。由此，音视频内容是由片断组成，但是所有片断组成的内容却可能比原音视频文件有许多重复冗余。拆分的大小取决于使用者所企望的应用效果。节目、片断、场景、镜头是一种组织规则，是逻辑规则，不是物理组织，一个原始音视频流，在逻辑划分之前与之后，都是一个完整的流文件，这些逻辑规则在流文件之外以一个XML文件的形式描述，该XML文件中除了逻辑结构描述，还有音视频文件的来源链接。节目、片断、场景、镜头是基于拍摄而设计的逻辑规则，主要来源于对传统片源的管理，本发明打破这种逻辑规则，是以内容为核心而设计的逻辑规则，不考虑该视频的拍摄情况。因为用户关心的是内容。该分割方式与图书不同点在于该XML文件中包含的是音视频文件的链接，电子图书的XML包含的是文字内容、图片链接等。无论是电子图书还是音视频文件，拆分都不是物理拆分，都是逻辑描述。传统意义上是通过固定层次嵌套的方式来描述音视频文件的结构，而本发明则用并列的片断，非嵌套的方式描述音视频结构，这种方法更加灵活，更便于计算机识别内容。本发明中将片断记为S.，片断S组成的集合为B，称之为“片断集合B”，B包含了音视频的所有内容，并存在冗余。记为B = {Si I i e N};存在i，j e N，使得 Si n Sj 关 Φ，；
如果集合BM = {Si I i e N};并且i、对于任意 i，j，i，j e N，都有 Si n Sj = Φ ;ii、BM包含音视频文件所有内容成立那么，BM称为最小片断集合。BM是没有冗余的音视频内容的集合。一个音视频文件可以存在多个BM。其中任何一个Si的内容在音视频文件中的表现是连续的；其次，片断S之间没有先后顺序，但可以通过工具读取S的ID属性来判断其在音视频文件中的顺序；此外，片断S之间没有相互包含关系，可以通过工具读取S的ID属性来判断其在音视频文件中的关系。在对音视频内容进行拆分时要保证1)这些片断之间是并列的，而不是传统的层次嵌套关系，并且片断之间可以有交集。2)拆分时要读取片断在原音视频文件中的位置信息，并保存在XML文件中。音视频的内容可以看成一个一维的阵列，在一个一维阵列中可以任意提取一个子列。因此，音视频内容可以很容易地被人工或工具拆分成没有嵌套及先后顺序关系的任意大小的片断。(3)为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；在此步骤中，可以开发一个计算机程序，把这些音视频文件中的片断作为XML元素，生成一个以片断为元素的XML文件。这时候，各个元素之间是完全并列、并且可能存在大量的重复内容。并可以通过一个XML编辑软件，对所产生的XML文件进行结构属性赋值。赋值的方式可以是手工输入，也可以通过计算机程序根据片断的一些特征进行自动赋值。根据每一个片断在音视频文件中的位置信息，应用XML技术给这些片段赋予结构属性(SS= {BID，SID，N，P})，那么虽然分割的片断是无序、无嵌套关系的，但是通过这些结构属性是可以判断出每个片断的先后顺序及嵌套关系。对于任意片断S，用集合SS来描述S的结构特征.SS = {BID, SID, N, P}其中，BID :音视频文件唯一的ID号。
SID :片断S的ID号，形式定义为:“C1. C2. C3. C4. C5”其中Cl :类别，C2 :节目，C3 :段，C4 :镜头，C5 :帧N :片断的序列号，η = 1，2，3......neNP :二元数组(PI，P2)，表示原音视频文件中时间的范围，(视频以24帧/秒换算)。PI,P2 e N ；(4)在所述XML文件中分别对每个片断进行语义描述赋值，形成一个新的XML文件；在该步骤中，可以开发一个语义标注程序，实现对第(3)步所产生的XML文件进行语义属性的赋值；
这一步必须是手工填加，实现对片断内容的抽象过程。对于片断S，用DD描述语义特征.I、DD = U {OP i}，OP i = (O i，A i, AK i, C i)S卩，用多个属性组合(OP i)从其用途、意义、内容概括、相关问题等多方面来描述片断⑶的语义。其中，DD为功能语义描述集合；它由若干功能的语义描述组成。功能语义描述OPi是一个四元组。其中O i表示语义的本体；A i为语义的谓体;AK i为A i的补充关键字；C i为约束条件，是一个多元组1C’ li，C’ 2i，C’ 3i}C，Ii = {NAME，VALUE}C，2i = {NAME, VALUE}C，3i = {NAME, VALUE}举例，对于软件类音视频教材的C’ 1，C’2，C’3，可以分别取值为C’ I. name =“类别”，C’ 2. name = “软件名称”，C’ 3. name = “版本”又例DD =( “图层”，”创建”，“ ”，(”案例”，“PHOTOSHOP”，“CS5” ))U ( “照片”，“修改”，“去皱纹”，(“案例”，“PHOTOSHOP”，“CS5”))对此语义描述的解释说明如下本片断内容讲述了图层创建的案例，所用的软件是PH0T0SH0PCS5。同时也是一个去除照片上皱纹的案例.所用的软件是PH0T0SH0PCS5。这样的语义描述从不同的角度及应用领域描述了这段视频教材内容，这样的描述是可以被工具识别的，同时也可以把读者的诉求与这段内容联系在一起。(5)对新的XML文件添加XML Schema声明、版权声明、音视频文件的位置，最终形成的描述音视频内容的XML文件或者对新的XML文件添加XML Schema声明、版权声明，并存入原音视频文件中，产生一个新的音视频文件。在该步骤中，可以开发一个基于语义描述的XML文件的导出程序，实现对填加语义属性的XML文件语法检查、增加XML Schema、版权的声明，以及原音视频文件的位置，可以是绝对地址，也可以是相对地址，也可以是包文件中的地址。最终用户、计算机软件可以根据该XML文件来检索并读取对应的音视频内容。此外，对于对新的XML文件，也可以在添加XML Schema声明、版权声明之后，把该XML文件存入原音视频文件中，产生一个新的音视频文件。各种音视频播放器软件可以直接读取该音视频文件中的XML数据，可以在一个音视频文件中检索内容。下面以具体实施例来具体描述本发明的执行过程。第一步，数据输入取自任意一个音视频文件，本文以MP4格式的音视频文件为例，说明本方案的实施过程。用相应的软件打开这种格式的音视频文件，如《MICROSOFT WORD))视频教学。或者启动《希望结构拆分工具》，运行“文件导入”功能，把音视频文件导入系统。第二步，数据的结构处理用《希望结构拆分工具》中的“选择”工具，依次把音视频内容中的片断，按照用户所需要的方式标注出来，在属性编辑器中，严格按照本发明的方法为每一个内容定义其结构属性，输出一个XML文件。其特点是每个片断(元素)之间是并列关系，但每个片断都具有反映层次关系的结构属性。第三步，数据的语义处理运行《希望语义标注系统》，导入上一环节输出的XML文件，在系统中运行“生成层次结构”功能，此功能读取XML文件各个元素的结构属性，并根据其属性来判断各元素的先后与层次关系。运行“浏览XML”功能，在浏览窗口中查看XML文件，这时的XML文件是具有先后顺序及层次关系的，进一步浏览并检查是否有错误，如果有，可以用鼠标拖动方式调整位置关系O运行“语义标注”功能，然后对每一个元素(片断内容)进行语义属性标注。标注过程中系统会自动检查标注是否合法。第四步，数据输出I运行“输出XML”功能，系统即可在现有的XML文件中，加入相应的XML Schema、版权声明、音视频文件位置等内容。在“保存文件”的提示下，输出一个具有结构及语义的XML文件。第五步，数据输出2运行“输出音视频”功能，系统即可在现有的XML文件中，加入相应的XML Schema、版权声明，同时把该XML文件内容存入音视频文件中。在“保存文件”的提示下，输出一个具有结构及语义的音视频文件。本发明能够实现音视频文件的片断内容的语义描述，音视频文件不再是完整的一部，而是被有目的地分成若干个片断，每一个片断都对应着读者的一个或多个诉求，海量的图书最终形成了海量的知识库，而不是简单的数据库。读者的每一个问题都能从知识库中检索到一个或多个答案，这完全高于关键字的检索效果，这在垃圾数据日益膨胀的未来更加重要与迫切。本方法完全抛弃目前广电的标准，以片断为核心的描述方法，使之更加适合目前的微视频、网络视频、音视频的精确检索的应用。本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。本发明专利的实质是利用一个计算机程序在公知计算机上对音视频文件数据进行处理以实现音视频文件内部内容的语义描述目标。对音视频文件内容的结构化，并对其中的片断内容进行语义描述处理是其要解决的技术问题，获得了具有内容语义描述的音视频文件以及可独立应用的XML文件是其技术效果。最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式
进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
1.一种对音视频内容进行语义描述的方法，其特征在于包括如下步骤 (1)定义一种结构字典与语义字典，并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件； (2)导入音视频文件并把音视频内容拆分成多个片断； (3)为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件； (4)在所述XML文件中分别对每个片断进行语义描述赋值，形成一个新的XML文件； (5)对新的XML文件添加XMLSchema声明、版权声明、音视频文件的位置，最终形成的描述音视频内容的XML文件或者对新的XML文件添加XML Schema声明、版权声明，并存入原音视频文件中，产生一个新的音视频文件。
2.根据权利要求I所述的对音视频内容进行语义描述的方法，其特征在于对音视频文件进行拆分时，所述的多个片断之间是以并列的而非嵌套的，并且每个片段内部的内容在音视频文件中的表现是连续的，并且片断之间可以有交集。
3.根据权利要求I所述的对音视频内容进行语义描述的方法，其特征在于对音视频文件进行拆分时要读取片断在原音视频文件中的先后顺序及位置信息，并保存在XML文件中。
4.根据权利要求I所述的对音视频内容进行语义描述的方法，其特征在于对每个片断进行结构属性赋值的方式可以是手工输入，也可以通过计算机程序根据片断的先后顺序及位置信息计算，自动赋值。
5.根据权利要求I所述的对音视频内容进行语义描述的方法，其特征在于对每个片断进行语义描述的方式是通过多个多元数组进行人工赋值，其中单个多元数组中的元素之间具有固定的逻辑关系。
6.一种对音视频内容进行语义描述的系统，其特征在于包括 (1)定义一种结构字典与语义字典，并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件的装置； (2)用于导入音视频文件并把音视频文件拆分成多个片断的装置； (3)用于为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件的装置； (4)用于在所述XML文件中分别对每个片断进行语义描述赋值，形成一个新的XML文件的装置； (5)用于对新的XML文件添加XMLSchema声明、版权声明、音视频文件的位置，最终形成的描述音视频内容的XML文件或者对新的XML文件添加XML Schema声明、版权声明，并存入原音视频文件中，产生一个新的音视频文件的装置。
7.根据权利要求6所述的对音视频内容进行语义描述的系统，其特征在于所述的多个片断之间是以并列的而非嵌套的，并且每个片段内部的内容在音视频文件中的表现是连续的，并且片断之间可以有交集。
8.根据权利要求6所述的对音视频内容进行语义描述的系统，其特征在于对音视频文件进行拆分时要读取片断在原音视频文件中的位置与顺序信息，并保存在XML文件中。
9.根据权利要求6所述的对音视频内容进行语义描述的系统，其特征在于对每个片断进行结构属性赋值的方式可以是手工输入，也可以通过计算机程序根据片断的特征进行自动赋值。
10.根据权利要求6所述的对音视频内容进行语义描述的系统，其特征在于对每个片断进行语义描述的方式是通过多个多元数组进行人工赋值，其中单个多元数组中的元素之间具有固定的逻辑关系。
全文摘要
一种对音、视频内容进行语义描述的方法和系统，其首先把音、视频内容拆分成多个片断，并为每个片断赋予用于标出每个片断的先后顺序及嵌套关系的结构属性，生成一个具有先后顺序及嵌套关系的XML文件；其次在所述XML文件中分别对每个片断根据构字典与语义字典进行语义描述，形成一个新的XML文件；最后对新的XML文件添加XML Schema声明、版权声明，并将其加入原音视频文件中，产生一个包含该XML文件的音视频文件，同时也可以在该新的XML文件中加入相应音视频文件片断的位置，生成与原音视频文件对应的XML文件。由此可以实现基于音视频文件本身或者基于与原音视频文件对应的XML文件对音视频进行更精确的检索。
文档编号G06F17/30GK102663095SQ20121010513
公开日2012年9月12日申请日期2012年4月11日优先权日2012年4月11日
发明者张训军申请人:北京中科希望软件股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张训军
技术所有人：北京中科希望软件股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。