一种基于语义理解的音频资源管理方法

文档序号：2825103阅读：235来源：国知局

专利名称：一种基于语义理解的音频资源管理方法
技术领域：
本发明属于音频资源管理技术领域，更为具体地讲，在音频资源进行语义理解的基础上，建立一种高效的统一的音频资源管理机制，该管理机制具有可管、可控、可信并充分满足用户需求的特点。
背景技术：
随着因特网的日益普及和音频压缩技术的飞速发展，以音乐为主的音频资源在互联网上的交流达到了前所未有的深度和广度，其发布形式也愈加丰富。音频资源承载着丰富的信息内容，但现有技术的音频资源除了含有采样频率、量化精度、编码方法等有限的注册信息外，其本身仅仅是一种非语义符号表示和非结构化的二进制流，缺乏资源的语义描述。虽然已经有很多组织和机构投入到了此方面的研究，但目前为止还有没有一个统一的标准，因而对音频资源进行准确有效的管理和访问变得十分艰难。随着音频资源和用户数量的日益增多，现有的音频资源在源端标引、网络传输和终端解析均存在内容管理混乱、分级管理不完善和用户需求无法满足等诸多问题。究其原因是忽略了音频资源的语义，没有建立简单有效的语义标引及语义解析、理解机制而导致音频资源管理机制的不理想。音频资源的语义标引及基于语义理解的音频资源管理近年来逐渐成为研究热点，语义标引是指对所收集到的信息单元，如音频资源给出规范化标识的过程，这些标识可以为标题、作者名、主题词等。通过语义标引，音频资源被整理为特征明显、便于检索和利用的数据记录。活动图像专家组(Moving Picture Group，简称MPEG)制定了 MPEG-7标准，它是第一个体现音视频资源信息内容，即语义标引技术的标准，可以对音频资源的多种特征进行标识，但是它并没有将音频流的分段技术以及对音频资源的特征提取作为自己的一部分，没有对音频资源进行语义解释。美国的Muscle Fish公司对带标识的数据进行加窗处理，对每帧数据提取音调、响度、带宽、能量等13个特征，则此13维特征即为音频资源的特征矢量，检索时采用马氏距离，比较样本特征矢量与库中数据的特征矢量，从而输出检索结果。大多数研究者通过分析音频资源底层频谱特征(如MFCC等)，将这些特征映射为高层语义标引，这种方法所需计算量大，过程复杂，没有很好的实际应用效果。相比之下，国内对这方面的研究起步较晚，但已引起广泛的关注和重视。浙江大学人工智能研究所对基于内容的音频检索、广播新闻分割等领域进行了深入的研究，在国内处于领先地位。中科院中科信利语音实验室推出了基于分布式群架构的语音处理平台TSE，主要功能模块包括语音识别、歌词检索、旋律识别及特定网站语音搜索等。清华大学对新闻的分段、音乐分类和音乐检索分类方法进行了研究，还有很多国内外的机构都致力于此项技术的开发研究，但都不同程度的存在着诸如算法处理速度慢、漏检误检率高、检索效果无评价标准、缺少支持多种检索手段等问题。而且没有从用户的角度定义其语义字段，分析语义元素，因而对用户也就缺少普通实用价值。
为了解决语义标引在网络中传输的问题，目前国内外普遍采用的都是将语义标引作为一个单独的头部文件实现在网络中的传输，这种方法容易丢失语义标引，而且一旦丢失，不易恢复。综上，尽管音频资源的语义标引和基于语义理解的音频资源管理机制在不断的演进，但仍然缺乏简单有效的、系统的整体设计，不管是实现的复杂性还是研究的可行性都存在明显的不足。因此，需要寻求行之有效的解决方案。

发明内容
本发明的目的在于克服现有技术的不足，提供一种基于语义理解的音频资源管理方法，以解决网络中音频资源无法有效、可行地进行管理的难题，为实现上述目的，本发明基于语义理解的音频资源管理方法，其特征在于，包括以下步骤(1)、在网络源端对音频资源进行资源整合在对音频资源进行语义理解的基础上实现语义标引，从而生成该音频资源的语义标引信息；所述的语义标引是指对音频资源的语义进行多维度的标引，使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源；将音频资源的语义标引信息作为语义水印嵌入到音频资源中，得到带有语义标引信息的音频资源；O)、网络源端发送带有语义标引信息的音频资源给用户终端；(3)、用户终端对接收到的带有语义标引信息的音频资源进行语义解析，并对解析出的语义标引信息进行一个初步的过滤，以此判断是否将接收到的音频资源在本地储存；所述的语义解析是指提取嵌入到音频资源中的语义水印，恢复成对音频资源进行多维度标引的语义标引信息；所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存；0)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示，然后计算它们之间的语义关联度，即张量语义离散度(Tensor Semantic Dispersion，简称 TSD)，最后，根据张量语义离散度对接收到音频资源进行分类管理。与现有技术相比，本发明有以下优点本发明基于语义理解的音频资源管理方法借助于语义标引信息对音频资源从源端到终端整个过程进行管理，具有简单易行、方便可靠等优点；本发明在网络源端将语义标引信息作为语义水印嵌入到音频资源中，使音频资源与其语义标引信息融合为一体，在网络中进行传输，有效地防止了语义标引信息的丢失，并能完整的恢复出音频语义信息。本发明在用户终端通过音频资源的语义解析，恢复出语义标引信息，根据语义标引信息初步过滤，然后对接收到的音频资源用三阶张量表示，然后计算它们之间的张量语义离散度，根据张量语义离散度对接收到音频资源进行分类管理，有效的克服了向量模型维度灾难，语义丢失等问题，能更加精确的对音频资源进行分类，给用户提供质量更高的服务。

图1是本发明基于语义理解的音频资源管理方法一种具体实施方式
流程图；图2是图1所示的语义标引信息嵌入过程示意图；图3是图1所示的语义标引信息的解析和音频资源的初步过滤流程图；图4是图1所示的张量语义离散度的计算流程和音频资源的分类流程图；图5是两种自动分类算法对四组不同语义的ROC曲线对比图。
具体实施例方式下面结合附图对本发明的具体实施方式
进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。实施例如图1所示，在本实施例中，基于语义理解的音频资源管理方法包括以下步骤步骤STlOl 语义标引信息的生成在网络源端，在对音频资源进行语义理解的基础上，对音频资源的语义进行多维度的标引，生成该音频资源的语义标引信息，生成的语义标引信息能够全方位地具体地反应一个特定的音频资源。传统的标引是基于关键字对内容标题进行标引，而不是对其内容本身，忽略了概念层面或语义层面的含义，很难全面的对其内容进行揭示。在本实施例中，语义标引从内容属性上对音频资源进行语义理解和特征提取过程，它的目的是揭示音频资源的内容特征，便于集中同类的内容，区分不同的内容，为相关内容建立联系，提高音频资源的管理和利用率。表1是语义标引信息的一个实例
权利要求
1.一种基于语义理解的音频资源管理方法，其特征在于，包括以下步骤 (1)、在网络源端对音频资源进行资源整合在对音频资源进行语义理解的基础上实现语义标引，从而生成该音频资源的语义标引信息；所述的语义标引是指对音频资源的语义进行多维度的标引，使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源；将音频资源的语义标引信息作为语义水印嵌入到音频资源中，得到带有语义标引信息的音频资源；O)、网络源端发送带有语义标引信息的音频资源给用户终端； (3)、用户终端对接收到的带有语义标引信息的音频资源进行语义解析，并对解析出的语义标引信息进行一个初步的过滤，以此判断是否将接收到的音频资源在本地储存；所述的语义解析是指提取嵌入到音频资源中的语义水印，恢复成对音频资源进行多维度标引的语义标引信息；所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存；G)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示，然后计算它们之间的张量语义离散度，最后，根据张量语义离散度对接收到音频资源进行分类管理。
2.根据权利要求1所述的基于语义理解的音频资源管理方法，其特征在于，所述的语义标引信息有17个语义，分为三大类由资源类型、分级、标准、文件长度、文件大小以及语言等6个元素组成的外部属性信息；由艺术家、出版者、日期、标题以及专辑等5个元素组成的版权管理信息；由音色、旋律、流派、情感、乐器以及描述等6个元素组成的本征语义信息。
3.根据权利要求1所述的基于语义理解的音频资源管理方法，其特征在于，所述的步骤(1)中，还将音频资源的传输优先级信息构成的传输优先级水印嵌入到音频资源中；用户对不同音频资源的不同需求程度，将音频资源的传输优先级分为高，中，低三个级别，在步骤O)的网络传输时，将解析出音频资源的传输优先级，传输优先级越高的音频资源将优先传输。
4.根据权利要求1所述的基于语义理解的音频资源管理方法，其特征在于，所述的步骤(1)的嵌入为步骤ST1021 对音频资源的每一帧音频信号进行子带滤波；步骤ST1022 对子带滤波后的音频信号进行MDCT变换；步骤ST1023 量化MDCT系数；步骤STlOM 选取合适的MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置；MDCT系数的选择应最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性；步骤ST1025 将语义标引信息进行预处理，得到含有语义标引信息的随机序列；步骤ST1(^6 将音频资源的传输优先级信息进行预处理，得到含有对音频资源不同的传输优先级的随机序列。步骤ST1027 将步骤ST1025、步骤ST1(^6得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤STlOM选出的最优位置，得到带有语义标引信息和传输优先级的音频资源。
5.根据权利要求4所述的基于语义理解的音频资源管理方法，其特征在于，所述的步骤⑶具体为步骤ST301 根据选则最优嵌入位置的方法的逆运算，在接收到的带有语义标引信息的音频资源中，找到语义水印的嵌入位置，提取出包含语义标引信息的随机序列；步骤ST302 根据产生随机序列采取的伪随机处理方法，对包含语义标引信息的随机序列进行逆变换，将提取的随机序列恢复成语义标引信息；步骤ST303 检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存。若本地文件中没有该语义标引信息或者不完全，则将该信息储存到本地文件中，刷新本地存储，实现对音频资源的初步过滤，对音频文件进行管理。
6.根据权利要求1所述的基于语义理解的音频资源管理方法，其特征在于，所述的步骤⑷具体为步骤ST401 将接收到各个音频资源的语义标引信息用三阶张量式^炉一爿3表示，其中 I1^ 12、I3分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数，则所有的接收到音频数据集合X= {X”)(2，...，Xn}都在此张量空间内；步骤ST402 对所有的音频资源类别，在张量语义离散度计算中，定义音频资源属于同一类别的类内语义离散度为α，属于不同类别的类间语义离散度为β ；步骤ST403:满足类内语义离散度α最小，类间语义离散度β最大时的类别信息作为 TSD,即张量语义离散度经验知识；步骤ST404 将所得到的TSD经验知识初始化RBF张量神经网络模型，并确定网络拓扑结构中权值和隐层神经元的个数；步骤ST405 利用RBFTNN算法将得到张量语义离散度经验知识作为样本数据进行迭代训练，完成RBFTNN分类模型建立，并存入RBFTNN模型库，以用于对资源信息的自动分类；步骤ST406 针对任一需找出目标类别的音频语义资源，用模型库中的RBFTNN模型寻找资源目标输出，若能找出分类目标，返回目标类别，若不能，则对该类新音频资源重新执行离散度分类及RBFTNN模型建立的过程，并最终更新模型库。
全文摘要
本发明公开了一种语义理解的音频资源管理方法，借助于语义标引信息对音频资源从源端到终端整个过程进行管理，具有简单易行、方便可靠等优点；在网络源端将语义标引信息作为语义水印嵌入到音频资源中，使音频资源与其语义标引信息融合为一体，在网络中进行传输，有效地防止了语义标引信息的丢失，并能完整的恢复出音频语义信息。在用户终端通过音频资源的语义解析，恢复出语义标引信息，根据语义标引信息初步过滤，然后对接收到的音频资源用三阶张量表示，然后计算它们之间的张量语义离散度，根据张量语义离散度对接收到音频资源进行分类管理，有效的克服了向量模型维度灾难，语义丢失等问题，能更加精确的对音频资源进行分类，给用户提供质量更高的服务。
文档编号G10L19/00GK102143001SQ20111008313
公开日2011年8月3日申请日期2011年4月2日优先权日2011年4月2日
发明者朱敏, 邢玲, 马建国申请人:西南科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马建国;邢玲;朱敏
技术所有人：西南科技大学
我是此专利的发明人

上一篇：真空复合隔音材料的制作方法
上一篇：弦乐器弓杆、弦乐器弓及弦乐器弓杆的制造方法