一种多媒体数据集中处理系统的制作方法

文档序号：7720710阅读：103来源：国知局

专利名称：一种多媒体数据集中处理系统的制作方法
技术领域：
本发明涉及多媒体数据处理的技术领域，特别是涉及一种多媒体数据集中处理系统。
背景技术：
随着流媒体技术在互联网的广泛应用，以及各电视台、电台、网站、甚至电信运营商开始基于IP网络采用流媒体技术进行内容的多渠道发布，如手机电视、IPTV、移动电视等。同时，视音频素材的来源也从原来传统媒体主要由专业人员、设备进行素材采集到现在各种来源，如普通用户上传等，素材来源和发布都呈现多元化发展，同时素材格式除传统常用视音频格式外，也呈现出新媒体特点，比如一些常用的网络格式。此外，图片、文本甚至 html网页也成为需要管理的新媒体内容。然而在传统的多媒体数据处理系统中，对于多媒体节目的制作通常是采用固定的标准对视音频文件进行编目、存储和管理，对于新媒体内容，由于传统存储采用的是非对象管理模式，没有彻底屏蔽文件格式，往往无法识别或处理，无法快捷地与新媒体内容生产过程融合。

发明内容
本发明所要解决的技术问题是提供一种多媒体数据集中处理系统，以有效解决新媒体内容生产过程中内容存储管理与内容快速生产制作无缝结合的问题。为了解决上述技术问题，本发明实施例公开了一种种多媒体数据集中处理系统，包括资源数据库，包括视音频数据库、XML对象数据库及文本语音关联模块，其中，所述视音频数据库用于存储素材文件和/或节目文件；所述XML对象数据库用于存储基于统一元数据描述模型生成的素材文件和/或节目文件的XML对象，所述XML对象中包括描述所述视音频数据对应文本属性的XML元数据；所述文本语音关联模块用于获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；业务支撑模块，用于生成对所述资源数据库进行处理的功能引擎，所述功能引擎包括检索引擎，用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；业务服务模块，用于依据节目制作的需求，与资源数据库进行交互，以及，配置相应功能引擎的执行任务；业务应用模块，用于为用户提供最终的业务展现。优选的，所述功能引擎还包括媒体分析引擎、转码处理引擎、分级存储管理引擎和内容管理引擎，用于对所述资源数据库进行管理、索引、检索和浏览。优选的，所述业务服务模块包括
采集上载子模块，用于采集来自各个制作网络的多媒体数据并经媒体分析引擎处理后，存储至相应的资源数据库中；编目审核子模块，用于对所述资源数据库中的数据进行编目处理；内容管理子模块，用于通过所述内容管理引擎、转码处理引擎和分级存储管理引擎对所述资源数据库进行相应处理；索引检索子模块，用于配置检索引擎的执行任务；出库子模块，用于提供相应的节目文件和/或素材文件的下载或发布。优选的，所述语音的特征量包括音调、音色和频率的声音量化信息。优选的，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。优选的，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。优选的，所述基于统一元数据描述模型生成的素材文件和/或节目文件的XML对象由描述素材文件或节目文件预置属性的XML元数据组织形成。优选的，所述预置属性包括文件属性和内容属性。优选的，所述文件属性包括文件的归属组信息、过程记载信息、扩展属性信息和分
类fe息。优选的，所述素材文件的内容属性包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、视音频元数据信息、素材实体文件及相关元数据信息、图片属性信息和/或文本属性信息；所述节目文件的内容属性包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、故事板信息、文稿对象信息、串联单中包含的条目信息、串联单的信息、视音频元数据信息、节目实体文件及相关元数据信息、图片属性信息和/或文本属性信息。与现有技术相比，本发明具有以下优点本发明通过将各文本字符分别与对应语音的特征量和时码进行关联，使得语音标引与文本索引相结合，由于语音数据本身是从视音频数据中分离出来的，即其具有关联的视频信息，在检索时，即可根据用户提交搜索关键词定位到文本，然后由文本定位到语音，再由语音定位到视频，从而检索到相应的视频画面，从而方便用户简单、快捷地获得想要的视频及关联文本信息，并不会过多占用系统资源。本发明对各类素材文件或节目文件中视音频数据及对应文本属性描述是以统一的、规范化的基于XML对象的元数据进行定义的，这种统一对象的元数据模型不仅可以向上屏蔽各种不同的多媒体内容格式，还为上层业务提供了统一的数据模型，从而不仅可以完成传统媒体行业对视频、音频素材文件以及相关元数据信息的存储管理，还可以有效兼容各种新媒体内容格式，满足所有文件格式的存储管理需求，使媒体行业、内容运营厂商以及其他相关用户可以对各种结构化或非结构化文件进行统一管理和查询检索。

图1是本发明的一种语音检索方法实施例的步骤流程图；图2是本发明的一种搜索结果展示效果的示意；图3是本发明的一种语音检索装置实施例的结构框图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明可用于众多通用或专用的计算系统环境或配置中。例如多处理器系统、服务器、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。参考图1，示出了本发明的一种语音检索方法实施例的步骤流程图，具体可以包括以下步骤预置步骤11，预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索步骤12，依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出步骤13 在搜索结果界面上展示所述视音频数据及文本信息。可以理解，在本发明实施例中，素材文件或节目文件是以XML对象的方式存储于数据库中，这种基于对象的数据管理模式，不仅可以有效兼容多种多媒体数据格式，在查询检索时，还可以对XML对象中描述的所有资源进行快速定位。在具体实现中，所述素材文件或节目文件的I对象数据库可以通过以下步骤生成提取素材文件或节目文件的预置属性；采用预定义的XML描述模型组织所述预置属性，生成所述素材文件或节目文件的 XML对象；对所述XML对象进行持久化，存储到数据库中。其中，所述预置属性可以包括文件属性和内容属性。其中，所述文件属性是指针对素材文件或节目文件整体而言的描述信息，所述内容属性是指与素材文件或节目文件中具体内容相关的描述信息。具体而言，所述文件属性可以包括文件的归属组信息、过程记载信息、扩展属性信息和分类信息；素材文件的内容属性可以包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、视音频元数据信息、素材实体文件及相关元数据信息、图片属性信息和/或文本属性信息；节目文件的内容属性相对于素材文件的内容属性而言，可以进一步增加故事板信
6息、文稿对象信息、串联单中包含的条目信息、串联单的信息。当然，上述XML描述模型的组织方式仅仅用作示例，本领域技术人员依据实际情况可以采用其它方式组织，本发明对此无需加以限制。在实际中，视频数据与音频数据通常是分别采集、制作的，在节目制作过程中，会将二者通过时码关联起来，然后进行播出。因此，从视音频数据中分离出当前所需的语音数据极为方便，现有技术中也提供了诸多分离音频的方法，本领域技术人员任意采用均可。在本发明的一种优选实施例中，所述语音的特征量可以包括音调、音色和频率等声音量化信息。公知的是，音调是指人耳对声音高低的感觉，音调主要与声波的频率有关，声波的频率高，则音调也高；音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性，或者说是人耳对各种频率、各种强度的声波的综合反应。音色与声波的振动波形有关，或者说与声音的频谱结构有关。关于所述音调、音色、频率的测量方法和计算方法，本领域技术人员任意采用均可，例如，首先对声音信号进行处理，将其转换成脉冲信号；然后对脉冲信号进行计数，并由此计算信号频率；再根据所述计算的信号频率获得该声音的特征量。需要说明的是，在本发明实施例中，是针对各个文本字符分别与对应语音的特征量和时码进行关联，例如，对于文本“胡锦涛主席”，其与语音的关联关系如下表所示基于上述预置的XML对象数据库及文本_语音索引，针对用户提交的搜索关键词时，即可在所述XML对象数据库中进行基于关键词的全文检索，从而获得对所需文本资源的快速定位，然后，通过所述文本关联的语音特征量和时码，即可方便、快捷地将相应的视频信息提取出来。需要说明的是，在实际应用中，用户提交搜索关键词的方式并不限于在指定的输入框中进入，还可以包括在浏览文本时，选定或触发一个或多个文本生成的搜索关键词。例如，用户输入关键词“胡锦涛主席”，或者，在浏览新闻稿文本时选择“胡锦涛主席”，均可触发搜索请求，从而通过该关键词即可直接检索到相关联的视频画面，在本发明的一种示例中，所述搜索结果在当前界面的展示效果如图2所示。即同时显示语音特征量和时码对应视频帧的缩略图以及关联的文本信息。在这种情况下，用户进一步触发该缩略图，即可打开相应视音频数据的播放窗口进行播放。为进一步方便用户实时观看视频，在本发明的另一种优选实施例中，所述视音频信息在搜索结果界面上也可以展示为，显示所述语音特征量和时码对应视频帧的播放窗口。在实际中，所述播放窗口可以为内嵌在页面中的播放窗口，以同步展示视频画面与关联文本的信息。在这种情况下，本发明还可以包括以下步骤依据用户触发播放的操作，在搜索结果界面的播放窗口中，从所述视频帧开始播放所述视音频数据。即用户直接在当前搜索结果界面上就可观看到相应的视频，从而更进一步提高用户的使用体验。对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。参考图3，示出了本发明的一种语音检索的装置实施例的结构框图，所述语音为从视音频数据中分离的语音数据，本实施例具体可以包括以下模块预置模块31 用于预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索模块32 用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出模块33 在搜索结果界面上展示所述视音频信息及文本信息。其中，所述语音的特征量可以包括音调、音色和频率的声音量化信息。在本发明的一种优选实施例中，所述视音频信息在搜索结果界面上可以展示为所述语音特征量和时码对应视频帧的缩略图。在这种情况下，用户进一步触发该缩略图，即可打开相应视音频数据的播放窗口进行播放。在本发明的另一种优选实施例中，所述视音频信息在搜索结果界面上还可以展示为显示所述语音特征量和时码对应视频帧的播放窗口。在这种情况下，本发明实施例还可以包括以下模块直接播放模块，用于依据用户触发播放的操作，在搜索结果界面的播放窗口中，从所述视频帧开始播放所述视音频数据。由于本实施例基本相应于前述方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此就不赘述了。以上对本发明所提供的一种语音检索方法及一种语音检索装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
8
权利要求
一种多媒体数据集中处理系统，其特征在于，包括资源数据库，包括视音频数据库、XML对象数据库及文本语音关联模块，其中，所述视音频数据库用于存储素材文件和/或节目文件；所述XML对象数据库用于存储基于统一元数据描述模型生成的素材文件和/或节目文件的XML对象，所述XML对象中包括描述所述视音频数据对应文本属性的XML元数据；所述文本语音关联模块用于获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；业务支撑模块，用于生成对所述资源数据库进行处理的功能引擎，所述功能引擎包括检索引擎，用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；业务服务模块，用于依据节目制作的需求，与资源数据库进行交互，以及，配置相应功能引擎的执行任务；业务应用模块，用于为用户提供最终的业务展现。
2.如权利要求1所述的系统，其特征在于，所述功能引擎还包括媒体分析引擎、转码处理引擎、分级存储管理引擎和内容管理引擎，用于对所述资源数据库进行管理、索引、检索和浏览。
3.如权利要求2所述的系统，其特征在于，所述业务服务模块包括采集上载子模块，用于采集来自各个制作网络的多媒体数据并经媒体分析引擎处理后，存储至相应的资源数据库中；编目审核子模块，用于对所述资源数据库中的数据进行编目处理；内容管理子模块，用于通过所述内容管理引擎、转码处理引擎和分级存储管理引擎对所述资源数据库进行相应处理；索引检索子模块，用于配置检索引擎的执行任务；出库子模块，用于提供相应的节目文件和/或素材文件的下载或发布。
4.如权利要求1所述的系统，其特征在于，所述语音的特征量包括音调、音色和频率的声音量化信息。
5.如权利要求1所述的系统，其特征在于，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。
6.如权利要求1所述的系统，其特征在于，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。
7.如权利要求1所述的系统，其特征在于，所述基于统一元数据描述模型生成的素材文件和/或节目文件的XML对象由描述素材文件或节目文件预置属性的XML元数据组织形成。
8.如权利要求7所述的系统，其特征在于，所述预置属性包括文件属性和内容属性。
9.如权利要求8所述的系统，其特征在于，所述文件属性包括文件的归属组信息、过程记载信息、扩展属性信息和分类信息。
10.如权利要求9所述的系统，其特征在于，所述素材文件的内容属性包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、视音频元数据信息、素材实体文件及相关元数据信息、图片属性信息和/或文本属性信息；所述节目文件的内容属性包括场记元数据信息、版本信息、实体标记点元数据信息、音频文件的格式信息、视频文件的格式信息、所有包含文件的格式信息、实体文件的信息、故事板信息、文稿对象信息、串联单中包含的条目信息、串联单的信息、视音频元数据信息、节目实体文件及相关元数据信息、图片属性信息和/或文本属性信息。
全文摘要
本发明公开了一种多媒体数据集中处理系统，包括资源数据库，包括视音频数据库、XML对象数据库及文本语音关联模块；业务支撑模块，用于生成对所述资源数据库进行处理的功能引擎，所述功能引擎包括检索引擎，用于依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；业务服务模块，用于依据节目制作的需求，与资源数据库进行交互，以及，配置相应功能引擎的执行任务；业务应用模块，用于为用户提供最终的业务展现。本发明可以有效解决新媒体内容生产过程中内容存储管理与内容快速生产制作无缝结合的问题。
文档编号H04N5/262GK101917553SQ200910241320
公开日2010年12月15日申请日期2009年11月27日优先权日2009年11月27日
发明者何宇飞, 张万军, 李军, 温晓瑶, 闫鹏申请人:新奥特(北京)视频技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李军;何宇飞;温晓瑶;张万军;闫鹏
技术所有人：新奥特（北京）视频技术有限公司
我是此专利的发明人

上一篇：一种无线上网方法、装置和系统的制作方法
上一篇：一种多样化字幕飞播的方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。