测量相似度的方法和设备的制造方法

文档序号：9598815阅读：293来源：国知局

测量相似度的方法和设备的制造方法
【专利说明】
[0001] 本申请是申请人于2011年8月19日向中国专利局提交的申请号为 201110243107. 5，发明名称为"测量内容一致性的方法和设备、测量相似度的方法和设备" 的发明专利申请的分案申请。
技术领域
[0002] 本发明一般涉及音频信号处理。更具体地，本发明的实施例涉及用于测量音频部分之间的内容一致性的方法和设备，以及用于测量音频分段之间的内容相似度的方法和设备。
【背景技术】
[0003] 内容一致性度量用于测量音频信号内或音频信号间的内容一致性。该度量涉及计算两个音频分段之间的内容一致性（content coherence)(内容相似度（content similarity)或内容一致性（content consistence))，并用作判断这些分段是否属于相同的语义聚类或这两个分段之间是否存在真实的边界的基础。
[0004] 已经提出了测量两个长窗口之间的内容一致性的方法。根据这种方法，将每个长窗口划分为多个短音频分段（音频元素），并且基于交叠相似度链接的整体思路，通过计算从左窗口和右窗口获得的所有分段对之间的语义相似性而获得内容一致性度量。可通过测量音频分段之间的内容相似度或通过其对应的音频元素类来计算语义相似性（例如，参见 L.Lu 及 A. Hanjalic. "Text-Like Segmentation of General Audio for Content-Based Retrieval, "IEEE Trans, on Multimedia，vol.ll，no.4, 658-669,2009，其通过引用合并于此以用于全部目的）。
[0005] 可以基于两个音频分段之间的特征比较来计算内容相似度。已经提出了诸如K-L 散度（Kullback-Leibler divergence，KLD)的各种度量，以测量两个音频分段之间的内容相似度。
[0006] 这一部分描述的方案是可能请求保护的方案，而不一定是先前已构思或已请求保护的方案。因此，除非另行表明，否则不应只是由于这些方案被包括在这一部分中就假定这一部分中描述的任何方案只能作为现有技术。类似地，除非另行表明，否则不应基于这一部分而假定任何现有技术中已经意识到相对于一个或多个方案而确定的问题。

【发明内容】

[0007] 根据本发明一个实施例，提供一种测量第一音频部分与第二音频部分之间的内容一致性的方法。针对第一音频部分中的每个音频分段，确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。将第一内容一致性计算为，针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
[0008] 根据本发明一个实施例，提供一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备。设备包含相似度计算器和一致性计算器。针对第一音频部分中的每个音频分段，相似度计算器确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。相似度计算器也计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。一致性计算器将第一内容一致性计算为，针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。
[0009] 根据本发明一个实施例，提供一种测量两个音频分段之间的内容相似度的方法。从所述音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化，使得特征值的和为1。根据特征向量，基于狄里克雷分布生成用于计算内容相似度的统计模型。基于所生成的统计模型计算内容相似度。
[0010] 根据本发明一个实施例，提供一种用于测量两个音频分段之间的内容相似度的设备。设备包含特征生成器、模型生成器和相似度计算器。特征生成器从音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化，使得特征值的和为1。模型生成器根据特征向量，基于狄里克雷分布生成用于计算内容相似度的统计模型。相似度计算器基于所生成的统计模型计算内容相似度。
[0011] 下面参考附图描述本发明的进一步特征及优点以及本发明各个实施例的结构及操作。应注意，本发明不限于在此描述的具体实施例。在此呈现这些实施例仅用于说明性目的。基于这里包含的教导，对本领域技术人员而言，另外的实施例将是明显的。
【附图说明】
[0012] 在附图的各图中通过示例来图解本发明，但这些示例不对本发明产生限制，附图中类似的附图标记表示类似的元件，其中：
[0013] 图1是图示根据本发明实施例的用于测量内容一致性的示例设备的框图；
[0014] 图2是用于图示第一音频部分中的音频分段与第二音频部分中的音频分段的子集之间的内容相似度的示意图；
[0015] 图3是图示根据本发明实施例的测量内容一致性的示例方法的流程图；
[0016] 图4是图示根据图3方法的进一步实施例的测量内容一致性的示例方法的流程图；
[0017] 图5是图示根据本发明实施例的相似度计算器的示例的框图；
[0018] 图6是用于图示通过采用统计模型来计算内容相似度的示例方法的流程图；
[0019] 图7是图示用于实施本发明的各实施例的示例性系统的框图。
【具体实施方式】
[0020] 下面参考附图描述本发明实施例。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是对理解本发明而言并非必需的组件和过程的陈述和描述。
[0021] 本领域的技术人员可以理解，本发明的各方面可以被实施为系统（例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等）、装置（例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器）、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：完全硬件实施例、完全软件实施例（包括固件、驻留软件、微代码等）或组合软件部分与硬件部分的实施例，本文可以一般地称之为 "电路"、"模块"或"系统"。此外，本发明的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上体现有计算机可读程序代码。
[0022] 可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是（但不限于）电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM)、只读存储器（R0M)、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
[0023] 计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。
[0024] 计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
[0025] 体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
[0026] 用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、 Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网（LAN)或广域网（WAN)，连接到用户的计算机，或者，可以（例如利用因特网服务提供商来通过因特网）连接到外部计算机。
[0027] 以下参照按照本发明实施例的方法、设备（系统）和计算机程序产品的流程图和/ 或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和 /或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
[0028] 也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
[0029] 也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
[0030] 图1是图示根据本发明实施例的用于测量内容一致性的示例设备100的框图。
[0031] 如图1所示，设备100包括相似度计算器101和一致性计算器102。
[0032] 诸如对话或会议中的说话人改变检测及聚类、音乐电台中的歌曲分割、歌曲中的副歌边界细化、复合音频信号中的音频场景检测以及音频检索的各种音频信号处理应用可能涉及测量音频信号之间的内容一致性。例如，在音乐电台中的歌曲分割的应用中，音频信号被分割为多个部分，每个部分包含一致的内容。再例如，在对话或会议中的说话人改变检测及聚类的应用中，与相同说话人相关联的音频部分被分组为一个聚类，每个聚类包含一致的内容。可以测量音频部分中的各分段之间的内容一致性，以判断音频部分是否含有一致的内容。可以测量各音频部分之间的内容一致性，以判断这些音频部分中的内容是否一致。
[0033] 在本说明书中，术语"分段"和"部分"均指代音频信号的连续部分。在一个较大部分被分为多个较小部分的语境中，术语"部分"指代那个较大部分，而术语"分段"指代那些较小部分中的一个。
[0034] 可以由两个分段（部分）之间的距离值或相似度值来表示内容一致性。较大的距离值或较小的相似度值表明较低的内容一致性，而较小的距离值或较大的相似度值表明较高的内容一致性。
[0035] 可以根据设备100测量的内容一致性来对音频信号进行预定处理。该预定处理取决于应用。
[0036] 音频部分的长度可以取决于要分割或分组的对象内容的语义等级。较高的语义等级可能要求较大长度的音频部分。例如，在关注音频场景（例如歌曲、天气预报和动作场景）的情况下，语义等级高，且测量较长的音频部分之间的内容一致性。较低的语义等级可能要求较小长度的音频部分。例如，在基本音频形态（例如话音、音乐和噪声）之间的边界检测和说话人改变检测的应用中，语义等级低，且测量较短的音频部分之间的内容一致性。在音频部分包括音频分段的示例情况下，音频部分之间的内容一致性涉及较高的语义等级，而音频分段之间的内容一致性涉及较低的语义等级。
[0037] 针对第一音频部分中的每个音频分段Slil，相似度

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：芦烈;胡明清;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：带有电路的悬挂基板的制作方法
上一篇：一种定向录音的方法及装置的制造方法